تحقیقات Anthropic نشان می‌دهد که مدل‌های زبان بزرگ (LLM) چگونه متن را درک می‌کنند

“`html

تحقیقات Anthropic نشان می‌دهد که مدل‌های زبان بزرگ (LLM) چگونه متن را درک می‌کنند

محققان Anthropic قابلیّت مدل Claude 3.5 Haiku را برای تصمیم‌گیری در مورد شکستن خطوط متن در یک عرض ثابت بررسی کردند؛ وظیفه‌ای که از مدل می‌خواهد موقعیت خود را هنگام نوشتن ردیابی کند. این مطالعه به نتایج شگفت‌انگیزی دست یافت که نشان می‌دهد مدل‌های زبان الگوهای داخلی‌ای را شکل می‌دهند که شبیه به آگاهی فضایی مورد استفاده انسان برای ردیابی موقعیت در فضای فیزیکی است.

Andreas Volpini در توییتی درباره این مقاله، قیاسی با تکه‌تکه کردن محتوا برای مصرف هوش مصنوعی انجام داد. به طور گسترده‌تر، اظهارنظر او به عنوان استعاره‌ای عمل می‌کند برای اینکه چگونه هم نویسندگان و هم مدل‌ها ساختارهای معنی‌دار را در مرزهایی که یک ایده به پایان می‌رسد و دیگری آغاز می‌شود، خلق می‌کنند.

این مقاله تحقیقاتی، به جای خواندن محتوا، به تولید متن و شناسایی محل قرار دادن شکست خط (line break) برای جای‌گذاری متن در یک عرض ثابت و دلخواه می‌پردازد. هدف از این کار، درک بهتر فرآیندهای درونی یک LLM در حین ردیابی موقعیت متن، انتخاب کلمه و مرزهای شکست خط بود.

محققان یک وظیفه آزمایشی را برای تولید متن با شکست خط در عرضی مشخص ایجاد کردند. هدف این بود که بفهمند Claude 3.5 Haiku چگونه کلمات را برای جای‌گیری در عرض مشخص‌شده انتخاب می‌کند و چه زمانی باید شکست خط را درج کند، که این کار مستلزم ردیابی موقعیت فعلی در خط متنی بود که در حال تولید آن است.

این آزمایش نشان می‌دهد که مدل‌های زبان چگونه ساختار را از الگوهای متنی، بدون برنامه‌نویسی صریح یا نظارت، یاد می‌گیرند.

چالش شکستن خط

وظیفه شکستن خط، از مدل می‌خواهد که تصمیم بگیرد آیا کلمه بعدی در خط فعلی جای می‌گیرد یا باید خط جدیدی را شروع کند. برای موفقیت، مدل باید محدودیت عرض خط (قاعده‌ای که تعداد کاراکترهای قابل جای‌گذاری در یک خط را محدود می‌کند، مانند فضای فیزیکی روی یک کاغذ) را یاد بگیرد. برای این کار، LLM باید تعداد کاراکترهای نوشته شده را ردیابی کند، تعداد باقیمانده را محاسبه کند و تصمیم بگیرد که آیا کلمه بعدی جای می‌گیرد یا خیر. این وظیفه نیازمند استدلال، حافظه و برنامه‌ریزی است. محققان از نمودارهای انتساب (attribution graphs) برای بصری‌سازی نحوه هماهنگی این محاسبات توسط مدل استفاده کردند که ویژگی‌های داخلی متمایزی را برای تعداد کاراکترها، کلمه بعدی و لحظه نیاز به شکست خط نشان می‌دهد.

شمارش پیوسته

محققان مشاهده کردند که Claude 3.5 Haiku، شمارش کاراکترهای خط را نه به صورت گام به گام، بلکه به عنوان یک ساختار هندسی صاف و پیوسته که مانند یک سطح منحنی عمل می‌کند، نمایش می‌دهد. این امر به مدل اجازه می‌دهد تا موقعیت را به طور روان (در لحظه) ردیابی کند، نه با شمارش نماد به نماد.

نکته جالب دیگر این است که آنها کشف کردند LLM یک “سر مرزی” (boundary head) را توسعه داده است که مسئول تشخیص مرز خط است. مکانیسم توجّه (attention mechanism) اهمیّت چیزی را که در حال بررسی است (توکن‌ها) وزن‌دهی می‌کند. “سر توجّه” یک جزء تخصصی از مکانیسم توجّه یک LLM است. سر مرزی، که یک سر توجّه است، در وظیفه خاص تشخیص مرز انتهای خط تخصص دارد.

مقاله تحقیقاتی بیان می‌کند:

“یکی از ویژگی‌های اساسی نمایش تعداد کاراکترهای خط این است که “سر مرزی” نمایش را می‌پیچاند و هر شمارش را قادر می‌سازد تا با یک شمارش کمی بزرگتر جفت شود، که نشان‌دهنده نزدیک بودن مرز است. این بدان معناست که یک نگاشت خطی QK وجود دارد که منحنی شمارش کاراکتر را در امتداد خود حرکت می‌دهد. چنین عملی توسط جاسازی‌های انحنای بالا و عمومی یک دایره یا بازه مانند آنچه در مدل فیزیکی ما ساخته شد، پذیرفته نیست. اما در هر دو منیفولد مشاهده شده در Haiku و، همانطور که اکنون نشان می‌دهیم، در ساختار فوریه وجود دارد.”

نحوه عملکرد حس‌گر مرز

محققان دریافتند که Claude 3.5 Haiku با مقایسه دو سیگنال داخلی، متوجه می‌شود که چه زمانی یک خط از متن تقریباً به پایان خود می‌رسد:

  1. تعداد کاراکترهایی که قبلاً تولید کرده است.
  2. طول خط چقدر باید باشد.

سرهای توجّه مرزی ذکر شده در بالا تصمیم می‌گیرند که کدام قسمت‌های متن مورد تمرکز قرار گیرند. برخی از این سرها در تشخیص زمان نزدیک شدن خط به حد خود تخصص دارند. آن‌ها این کار را با چرخاندن یا تراز کردن جزئی دو سیگنال داخلی (شمارش کاراکتر و حداکثر عرض خط) انجام می‌دهند، به طوری که وقتی این دو تقریباً با هم مطابقت دارند، توجه مدل به سمت درج شکست خط تغییر می‌کند.

محققان توضیح می‌دهند:

“برای تشخیص یک مرز خط نزدیک‌شونده، مدل باید دو کمیت را مقایسه کند: شمارش کاراکتر فعلی و عرض خط. ما سرهای توجهی را پیدا می‌کنیم که ماتریس QK آن‌ها یک منیفولد شمارش را می‌چرخاند تا آن را با دیگری در یک افست مشخص تراز کند و یک حاصل‌ضرب داخلی بزرگ ایجاد می‌کند زمانی که اختلاف شمارش‌ها در محدوده هدف قرار می‌گیرد. سرهای متعدد با افست‌های مختلف با هم کار می‌کنند تا کاراکترهای باقی‌مانده را با دقّت تخمین بزنِند.”

مرحله نهایی

در این مرحله از آزمایش، مدل از قبل تعیین کرده است که چقدر به مرز خط نزدیک است و کلمه بعدی چقدر طول خواهد کشید. گام آخر استفاده از این اطلاعات است.

در اینجا نحوه توضیح آن آمده است:

“گام نهایی وظیفه شکست خط، ترکیب تخمین مرز خط با پیش‌بینی کلمه بعدی است تا تعیین شود آیا کلمه بعدی در خط جای می‌گیرد یا خیر، یا اینکه خط باید شکسته شود.”

محققان دریافتند که ویژگی‌های داخلی خاصی در مدل فعال می‌شوند وقتی کلمه بعدی باعث می‌شود خط از حد خود فراتر رود، که به طور مؤثری به عنوان آشکارسازهای مرزی عمل می‌کنند. در این حالت، مدل احتمال پیش‌بینی نماد خط جدید را افزایش و احتمال پیش‌بینی کلمه دیگر را کاهش می‌دهد. ویژگی‌های دیگر عکس این عمل را انجام می‌دهند: وقتی کلمه هنوز جای می‌گیرد، فعال می‌شوند و احتمال درج شکست خط را کاهش می‌دهند.

در مجموع، این دو نیرو، یکی برای شکست خط فشار می‌آورد و دیگری آن را عقب نگه می‌دارد، برای اتخاذ تصمیم با هم تعادل برقرار می‌کنند.

آیا مدل‌ها می‌توانند توهمات بصری داشته باشند؟

قسمت بعدی تحقیق نوعی باورنکردنی است، زیرا آنها تلاش کردند تا آزمایش کنند که آیا مدل می‌تواند مستعد توهمات بصری باشد که باعث گمراهی آن شود. آنها با این ایده شروع کردند که چگونه انسان‌ها می‌توانند توسط توهمات بصری فریب بخورند که یک پرسپکتیو غلط را ارائه می‌دهند و باعث می‌شوند خطوط با طول یکسان، طول‌های متفاوتی داشته باشند، یکی کوتاه‌تر از دیگری.

تصویری از یک توهم بصری

تصویری از دو خط با فلش‌هایی در هر انتها که در جهت‌های مختلف برای هر خط، یکی به داخل و دیگری به بیرون، اشاره دارند. این توهم را ایجاد می‌کند که یک خط بلندتر از دیگری است.

محققان توکن‌های مصنوعی مانند “@@” را وارد کردند تا ببینند چگونه حس موقعیت‌یابی مدل را مختل می‌کنند. این آزمایش‌ها باعث عدم تطابق در الگوهای داخلی مدل برای ردیابی موقعیت شدند، مشابه توهمات بصری که ادراک انسان را فریب می‌دهند. این امر باعث تغییر حس مرزهای خط در مدل شد و نشان داد که درک آن از ساختار به بافت و الگوهای آموخته شده بستگی دارد. حتی با اینکه LLMها “نمی‌بینند”، اعوجاجاتی در سازمان‌دهی داخلی خود تجربه می‌کنند که مشابه قضاوت نادرست انسان از آنچه می‌بیند از طریق اخلال در سرهای توجّه مربوطه است.

آنها توضیح دادند:

“ما دریافتیم که این کار باعث تعدیل توکن پیش‌بینی شده بعدی می‌شود و پیش‌بینی خط جدید را مختل می‌کند! همانطور که پیش‌بینی می‌شد، سرهای مربوطه دچار حواس‌پرتی می‌شوند: در حالی که با پرامپت اصلی، سرها از خط جدید به خط جدید توجّه می‌کنند، در پرامپت تغییر یافته، سرها به @@ نیز توجه می‌کنند.”

آنها از خود پرسیدند که آیا کاراکترهای @@ ویژگی خاصی دارند یا هر کاراکتر تصادفی دیگری می‌تواند توانایی مدل را برای تکمیل موفقیت‌آمیز وظیفه مختل کند. بنابراین، آنها آزمایشی را با ۱۸۰ توالی مختلف انجام دادند و دریافتند که اکثر آنها توانایی مدل را برای پیش‌بینی نقطه شکست خط مختل نمی‌کنند. آنها کشف کردند که تنها گروه کوچکی از کاراکترهای مرتبط با کد توانایی منحرف کردن سرهای توجّه مربوطه و اخلال در فرآیند شمارش را دارند.

LLM‌ها دارای درک بصری‌مانندی برای متن هستند

این مطالعه نشان می‌دهد که چگونه ویژگی‌های مبتنی بر متن به سیستم‌های هندسی صاف در داخل یک مدل زبان تکامل می‌یابند. همچنین نشان می‌دهد که مدل‌ها تنها نمادها را پردازش نمی‌کنند، بلکه نقشه‌های مبتنی بر ادراک را از آنها ایجاد می‌کنند. این بخش، در مورد ادراک، برای من واقعاً جالب‌ترین بخش تحقیق است. آنها دائماً به قیاس‌هایی با ادراک انسان بازمی‌گردند و اینکه چگونه آن قیاس‌ها با آنچه در داخل LLM می‌بینند، مطابقت دارند.

آنها می‌نویسند:

“گرچه ما گاهی اوقات لایه‌های اولیه مدل‌های زبان را مسئول “بی‌توکن‌سازی” ورودی توصیف می‌کنیم، شاید تصور آن به عنوان “ادراک” بیشتر ملموس باشد. آغاز مدل واقعاً مسئول دیدن ورودی است و بسیاری از مدارهای اولیه در خدمت حس کردن یا درک متن هستند، مشابه اینکه چگونه لایه‌های اولیه در مدل‌های بینایی، ادراک سطح پایین را پیاده‌سازی می‌کنند.”

سپس کمی بعد می‌نویسند:

“الگوهای هندسی و الگوریتمی که ما مشاهده می‌کنیم، موازی‌های الهام‌بخشی با ادراک در سیستم‌های عصبی بیولوژیکی دارند… این ویژگی‌ها اتساع (dilation) را نشان می‌دهند – نمایش شمارش‌های کاراکتری بزرگتر که در محدوده‌های بزرگتر فعال می‌شوند – که بازتاب‌دهنده اتساع نمایش‌های عددی در مغزهای بیولوژیکی است. علاوه بر این، سازماندهی ویژگی‌ها در یک منیفولد با ابعاد پایین، نمونه‌ای از یک موتیف رایج در شناخت بیولوژیکی است. اگرچه این تشبیه‌ها کامل نیستند، اما ما گمان می‌کنیم که همچنان هم‌پوشانی مفهومی ثمربخشی از افزایش همکاری بین علوم اعصاب و قابلیت تفسیر وجود دارد.”

همچنین ببینید: چگونه LLM‌ها ساختار محتوا را تفسیر می‌کنند: نحوه ساختاردهی اطلاعات برای جستجوی هوش مصنوعی

پیامدهای این تحقیق برای سئو چیست؟

آرتور سی. کلارک نوشت که فناوری پیشرفته از جادو غیرقابل تمایز است. من فکر می‌کنم که وقتی شما یک فناوری را درک می‌کنید، قابل فهم‌تر و کمتر شبیه جادو می‌شود. همه دانش‌ها کاربرد عملی ندارند و به نظر من، درک اینکه یک LLM چگونه محتوا را درک می‌کند، تا حدی مفید است که دیگر جادویی نیست. آیا این تحقیق شما را به یک سئوکار بهتر تبدیل می‌کند؟ این تحقیق درک ما را از نحوه سازماندهی و تفسیر ساختار محتوا توسط مدل‌های زبان عمیق‌تر می‌کند و آن را قابل فهم‌تر و کمتر شبیه جادو می‌سازد.

درباره این تحقیق در اینجا بخوانید:

زمانی که مدل‌ها منیفولدها را دستکاری می‌کنند: هندسه یک وظیفه شمارش

“`

منبع: مشاهده مقاله اصلی

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *