تکنولوژی جدید بلاک‌رنک (BlockRank) گوگل: دموکراتیزه کردن جستجوی معنایی پیشرفته

“`html

تکنولوژی جدید بلاک‌رنک (BlockRank) گوگل: دموکراتیزه کردن جستجوی معنایی پیشرفته

مقدمه

یک مقاله تحقیقاتی جدید از تیم Google DeepMind الگوریتم رتبه‌بندی جستجوی مبتنی بر هوش مصنوعی به نام BlockRank را معرفی کرده است. این الگوریتم به اندازه‌ای کارآمد است که رتبه‌بندی جستجوی معنایی پیشرفته را برای افراد و سازمان‌ها قابل دسترس می‌سازد. محققان نتیجه‌گیری کرده‌اند که BlockRank می‌تواند «دسترسی به ابزارهای قدرتمند کشف اطلاعات را دموکراتیزه کند.»

رتبه‌بندی درون‌متنی (ICR)

این مقاله تحقیقاتی، پیشرفت در استفاده از رتبه‌بندی درون‌متنی (In-Context Ranking – ICR) را تشریح می‌کند؛ روشی برای رتبه‌بندی صفحات وب با بهره‌گیری از قابلیت‌های درک متنی مدل‌های زبان بزرگ (LLM). در این روش، مدل با سه عنصر هدایت می‌شود:

  • دستورالعمل‌های مربوط به وظیفه (مانند «این صفحات وب را رتبه‌بندی کن»)
  • اسناد کاندیدا (صفحاتی که باید رتبه‌بندی شوند)
  • و کوئری جستجو.

ICR یک رویکرد نسبتاً جدید است که برای اولین بار توسط محققان Google DeepMind و Google Research در سال 2024 مورد بررسی قرار گرفت. مطالعات قبلی نشان داد که ICR می‌تواند با عملکرد سیستم‌های بازیابی که به‌طور خاص برای جستجو ساخته شده‌اند، برابری کند. با این حال، این بهبود با یک نقطه ضعف همراه بود: افزایش توان محاسباتی با افزایش تعداد صفحات برای رتبه‌بندی. زمانی که یک LLM چندین سند را برای تعیین ارتباط آن‌ها با یک کوئری مقایسه می‌کند، باید به هر کلمه در هر سند و ارتباط آن با سایر کلمات «توجه» کند. این فرآیند توجه با افزایش اسناد، به‌طور تصاعدی کندتر می‌شود. تحقیق جدید این مشکل کارایی را حل کرده است و به همین دلیل مقاله «رتبه‌بندی درون‌متنی مقیاس‌پذیر با مدل‌های مولد» نامیده شده است، زیرا نشان می‌دهد چگونه می‌توان رتبه‌بندی درون‌متنی (ICR) را با استفاده از BlockRank مقیاس‌پذیر کرد.

نحوه توسعه BlockRank

محققان نحوه استفاده مدل از مکانیزم توجه (attention) در حین بازیابی درون‌متنی را بررسی کردند و دو الگو را کشف کردند:

  • الگوی پراکندگی بلوکی بین اسناد (Inter-document block sparsity):

    محققان دریافتند که هنگام مطالعه مجموعه‌ای از اسناد، مدل عمدتاً بر هر سند به صورت جداگانه تمرکز می‌کند، نه بر مقایسه همه آن‌ها با یکدیگر. این پدیده را «پراکندگی بلوکی» نامیدند که به معنای کمبود مقایسه مستقیم بین اسناد مختلف است. با تکیه بر این بینش، آن‌ها نحوه پردازش ورودی توسط مدل را تغییر دادند؛ به‌گونه‌ای که مدل هر سند را به‌طور مستقل بررسی می‌کند، اما همچنان همه آن‌ها را با کوئری جستجو مقایسه می‌کند. این رویکرد، در حالی که قسمت مهم (تطبیق اسناد با کوئری) را حفظ می‌کند، مقایسه‌های غیرضروری سند به سند را حذف می‌کند و منجر به سیستمی بسیار سریع‌تر بدون از دست دادن دقت می‌شود.

  • الگوی ارتباط بلوکی کوئری-سند (Query-document block relevance):

    هنگامی که LLM کوئری را می‌خواند، هر کلمه در آن پرسش را به یک اندازه مهم تلقی نمی‌کند. برخی از بخش‌های کوئری، مانند کلمات کلیدی خاص یا علائم نگارشی که نیت کاربر را نشان می‌دهند، به مدل کمک می‌کنند تا تصمیم بگیرد کدام سند سزاوار توجه بیشتری است. محققان دریافتند که الگوهای توجه داخلی مدل، به‌ویژه نحوه تمرکز کلمات خاص در کوئری بر اسناد خاص، اغلب با اسناد مرتبط همخوانی دارد. این رفتار، که آن را «ارتباط بلوکی کوئری-سند» نامیدند، چیزی شد که محققان توانستند مدل را برای استفاده موثرتر از آن آموزش دهند.

بر اساس این بینش‌ها، آن‌ها رویکردی جدید طراحی کردند. الگوی اول، پراکندگی بلوکی بین اسناد، نشان داد که مدل با مقایسه اسناد با یکدیگر، محاسبات را هدر می‌دهد، زیرا این اطلاعات مفید نبودند. الگوی دوم، ارتباط بلوکی کوئری-سند، نشان داد که بخش‌های خاصی از یک پرسش از قبل به سند صحیح اشاره می‌کنند. با استفاده از این یافته‌ها، آن‌ها نحوه مدیریت توجه و آموزش مدل را بازطراحی کردند. نتیجه، BlockRank است؛ شکلی کارآمدتر از بازیابی درون‌متنی که مقایسه‌های غیرضروری را حذف می‌کند و به مدل آموزش می‌دهد تا بر آنچه واقعاً نشان‌دهنده ارتباط است، تمرکز کند.

ارزیابی دقت BlockRank

محققان BlockRank را برای ارزیابی دقت رتبه‌بندی اسناد در سه بنچمارک اصلی آزمایش کردند:

  • BEIR: مجموعه‌ای گسترده از وظایف جستجو و پرسش و پاسخ که برای آزمایش عملکرد سیستم در یافتن و رتبه‌بندی اطلاعات مرتبط در طیف وسیعی از موضوعات استفاده می‌شود.
  • MS MARCO: مجموعه داده‌ای بزرگ از کوئری‌های جستجوی واقعی بینگ و متن‌های مرتبط، که برای اندازه‌گیری دقت سیستم در رتبه‌بندی متن‌هایی که بهترین پاسخ را به سؤال کاربر می‌دهند، به کار می‌رود.
  • Natural Questions (NQ): بنچمارکی که از سؤالات واقعی جستجوی گوگل ساخته شده و برای آزمایش اینکه آیا یک سیستم می‌تواند متن‌های مرتبط از ویکی‌پدیا را که مستقیماً به آن سؤالات پاسخ می‌دهند، شناسایی و رتبه‌بندی کند، طراحی شده است.

آن‌ها از یک مدل LLM Mistral با 7 میلیارد پارامتر استفاده کردند و BlockRank را با سایر مدل‌های رتبه‌بندی قدرتمند، از جمله FIRST، RankZephyr، RankVicuna، و یک مدل پایه Mistral کاملاً تنظیم‌شده (fine-tuned) مقایسه کردند. BlockRank در هر سه بنچمارک عملکردی برابر یا بهتر از این سیستم‌ها داشت؛ نتایج مشابهی در MS MARCO و Natural Questions کسب کرد و در BEIR کمی بهتر عمل کرد.

محققان در توضیح نتایج بیان کردند:

«آزمایش‌ها روی MSMarco و NQ نشان می‌دهند که BlockRank (Mistral-7B) با کارایی تنظیم دقیق استاندارد برابری می‌کند یا از آن پیشی می‌گیرد، در حالی که در زمان استنتاج و آموزش به‌طور قابل توجهی کارآمدتر است. این روش، رویکردی مقیاس‌پذیر و مؤثر برای ICR مبتنی بر LLM ارائه می‌دهد.»

آن‌ها همچنین اذعان کردند که LLMهای متعددی را آزمایش نکرده‌اند و این نتایج خاص Mistral 7B هستند.

آیا BlockRank توسط گوگل استفاده می‌شود؟

مقاله تحقیقاتی هیچ اشاره‌ای به استفاده از BlockRank در محیط عملیاتی زنده نکرده است؛ بنابراین، هرگونه اظهار نظر در مورد استفاده احتمالی آن، صرفاً حدس و گمان است. همچنین، اگرچه طبیعی است که تلاش شود جایگاه BlockRank در حالت AI Mode یا AI Overviews مشخص شود، اما توصیف عملکرد FastSearch و RankEmbed در AI Mode تفاوت‌های اساسی با نحوه کار BlockRank دارد. لذا بعید است که BlockRank با FastSearch یا RankEmbed مرتبط باشد.

چرا BlockRank یک پیشرفت محسوب می‌شود؟

مقاله تحقیقاتی تأکید می‌کند که BlockRank یک تکنولوژی پیشگامانه است که سیستم رتبه‌بندی پیشرفته را برای افراد و سازمان‌هایی که معمولاً به چنین فناوری رتبه‌بندی با کیفیت بالا دسترسی ندارند، ممکن می‌سازد. محققان توضیح می‌دهند:

«متدولوژی BlockRank با افزایش کارایی و مقیاس‌پذیری بازیابی درون‌متنی (ICR) در مدل‌های زبان بزرگ (LLM)، بازیابی معنایی پیشرفته را از نظر محاسباتی عملی‌تر کرده و می‌تواند دسترسی به ابزارهای قدرتمند کشف اطلاعات را دموکراتیزه کند. این امر می‌تواند تحقیقات را تسریع بخشد، نتایج آموزشی را با ارائه سریع‌تر اطلاعات مرتبط بهبود بخشد و افراد و سازمان‌ها را با قابلیت‌های تصمیم‌گیری بهتر توانمند سازد.»

علاوه بر این، افزایش کارایی به‌طور مستقیم به کاهش مصرف انرژی برای برنامه‌های LLM با نیاز بالا به بازیابی منجر می‌شود و به توسعه و استقرار هوش مصنوعی پایدارتر از نظر زیست‌محیطی کمک می‌کند. با فعال کردن ICR مؤثر در مدل‌های بالقوه کوچک‌تر یا بهینه‌تر، BlockRank می‌تواند دامنه دسترسی این فناوری‌ها را در محیط‌های دارای محدودیت منابع نیز گسترش دهد.

متخصصان سئو و ناشران می‌توانند نظرات خود را در مورد احتمال استفاده گوگل از این فناوری داشته باشند. در حال حاضر شواهدی برای این امر وجود ندارد، اما پرسش از یکی از کارکنان گوگل در این مورد جالب خواهد بود. به نظر می‌رسد گوگل در حال آماده‌سازی برای در دسترس قرار دادن BlockRank در گیت‌هاب است، اما هنوز هیچ کدی در آنجا منتشر نشده است.

برای مطالعه بیشتر درباره BlockRank، می‌توانید مقاله «رتبه‌بندی درون‌متنی مقیاس‌پذیر با مدل‌های مولد» را مطالعه کنید.

“`

منبع: مشاهده مقاله اصلی

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *