“`html
تکنولوژی جدید بلاکرنک (BlockRank) گوگل: دموکراتیزه کردن جستجوی معنایی پیشرفته
مقدمه
یک مقاله تحقیقاتی جدید از تیم Google DeepMind الگوریتم رتبهبندی جستجوی مبتنی بر هوش مصنوعی به نام BlockRank را معرفی کرده است. این الگوریتم به اندازهای کارآمد است که رتبهبندی جستجوی معنایی پیشرفته را برای افراد و سازمانها قابل دسترس میسازد. محققان نتیجهگیری کردهاند که BlockRank میتواند «دسترسی به ابزارهای قدرتمند کشف اطلاعات را دموکراتیزه کند.»
رتبهبندی درونمتنی (ICR)
این مقاله تحقیقاتی، پیشرفت در استفاده از رتبهبندی درونمتنی (In-Context Ranking – ICR) را تشریح میکند؛ روشی برای رتبهبندی صفحات وب با بهرهگیری از قابلیتهای درک متنی مدلهای زبان بزرگ (LLM). در این روش، مدل با سه عنصر هدایت میشود:
- دستورالعملهای مربوط به وظیفه (مانند «این صفحات وب را رتبهبندی کن»)
- اسناد کاندیدا (صفحاتی که باید رتبهبندی شوند)
- و کوئری جستجو.
ICR یک رویکرد نسبتاً جدید است که برای اولین بار توسط محققان Google DeepMind و Google Research در سال 2024 مورد بررسی قرار گرفت. مطالعات قبلی نشان داد که ICR میتواند با عملکرد سیستمهای بازیابی که بهطور خاص برای جستجو ساخته شدهاند، برابری کند. با این حال، این بهبود با یک نقطه ضعف همراه بود: افزایش توان محاسباتی با افزایش تعداد صفحات برای رتبهبندی. زمانی که یک LLM چندین سند را برای تعیین ارتباط آنها با یک کوئری مقایسه میکند، باید به هر کلمه در هر سند و ارتباط آن با سایر کلمات «توجه» کند. این فرآیند توجه با افزایش اسناد، بهطور تصاعدی کندتر میشود. تحقیق جدید این مشکل کارایی را حل کرده است و به همین دلیل مقاله «رتبهبندی درونمتنی مقیاسپذیر با مدلهای مولد» نامیده شده است، زیرا نشان میدهد چگونه میتوان رتبهبندی درونمتنی (ICR) را با استفاده از BlockRank مقیاسپذیر کرد.
نحوه توسعه BlockRank
محققان نحوه استفاده مدل از مکانیزم توجه (attention) در حین بازیابی درونمتنی را بررسی کردند و دو الگو را کشف کردند:
الگوی پراکندگی بلوکی بین اسناد (Inter-document block sparsity):
محققان دریافتند که هنگام مطالعه مجموعهای از اسناد، مدل عمدتاً بر هر سند به صورت جداگانه تمرکز میکند، نه بر مقایسه همه آنها با یکدیگر. این پدیده را «پراکندگی بلوکی» نامیدند که به معنای کمبود مقایسه مستقیم بین اسناد مختلف است. با تکیه بر این بینش، آنها نحوه پردازش ورودی توسط مدل را تغییر دادند؛ بهگونهای که مدل هر سند را بهطور مستقل بررسی میکند، اما همچنان همه آنها را با کوئری جستجو مقایسه میکند. این رویکرد، در حالی که قسمت مهم (تطبیق اسناد با کوئری) را حفظ میکند، مقایسههای غیرضروری سند به سند را حذف میکند و منجر به سیستمی بسیار سریعتر بدون از دست دادن دقت میشود.
الگوی ارتباط بلوکی کوئری-سند (Query-document block relevance):
هنگامی که LLM کوئری را میخواند، هر کلمه در آن پرسش را به یک اندازه مهم تلقی نمیکند. برخی از بخشهای کوئری، مانند کلمات کلیدی خاص یا علائم نگارشی که نیت کاربر را نشان میدهند، به مدل کمک میکنند تا تصمیم بگیرد کدام سند سزاوار توجه بیشتری است. محققان دریافتند که الگوهای توجه داخلی مدل، بهویژه نحوه تمرکز کلمات خاص در کوئری بر اسناد خاص، اغلب با اسناد مرتبط همخوانی دارد. این رفتار، که آن را «ارتباط بلوکی کوئری-سند» نامیدند، چیزی شد که محققان توانستند مدل را برای استفاده موثرتر از آن آموزش دهند.
بر اساس این بینشها، آنها رویکردی جدید طراحی کردند. الگوی اول، پراکندگی بلوکی بین اسناد، نشان داد که مدل با مقایسه اسناد با یکدیگر، محاسبات را هدر میدهد، زیرا این اطلاعات مفید نبودند. الگوی دوم، ارتباط بلوکی کوئری-سند، نشان داد که بخشهای خاصی از یک پرسش از قبل به سند صحیح اشاره میکنند. با استفاده از این یافتهها، آنها نحوه مدیریت توجه و آموزش مدل را بازطراحی کردند. نتیجه، BlockRank است؛ شکلی کارآمدتر از بازیابی درونمتنی که مقایسههای غیرضروری را حذف میکند و به مدل آموزش میدهد تا بر آنچه واقعاً نشاندهنده ارتباط است، تمرکز کند.
ارزیابی دقت BlockRank
محققان BlockRank را برای ارزیابی دقت رتبهبندی اسناد در سه بنچمارک اصلی آزمایش کردند:
- BEIR: مجموعهای گسترده از وظایف جستجو و پرسش و پاسخ که برای آزمایش عملکرد سیستم در یافتن و رتبهبندی اطلاعات مرتبط در طیف وسیعی از موضوعات استفاده میشود.
- MS MARCO: مجموعه دادهای بزرگ از کوئریهای جستجوی واقعی بینگ و متنهای مرتبط، که برای اندازهگیری دقت سیستم در رتبهبندی متنهایی که بهترین پاسخ را به سؤال کاربر میدهند، به کار میرود.
- Natural Questions (NQ): بنچمارکی که از سؤالات واقعی جستجوی گوگل ساخته شده و برای آزمایش اینکه آیا یک سیستم میتواند متنهای مرتبط از ویکیپدیا را که مستقیماً به آن سؤالات پاسخ میدهند، شناسایی و رتبهبندی کند، طراحی شده است.
آنها از یک مدل LLM Mistral با 7 میلیارد پارامتر استفاده کردند و BlockRank را با سایر مدلهای رتبهبندی قدرتمند، از جمله FIRST، RankZephyr، RankVicuna، و یک مدل پایه Mistral کاملاً تنظیمشده (fine-tuned) مقایسه کردند. BlockRank در هر سه بنچمارک عملکردی برابر یا بهتر از این سیستمها داشت؛ نتایج مشابهی در MS MARCO و Natural Questions کسب کرد و در BEIR کمی بهتر عمل کرد.
محققان در توضیح نتایج بیان کردند:
«آزمایشها روی MSMarco و NQ نشان میدهند که BlockRank (Mistral-7B) با کارایی تنظیم دقیق استاندارد برابری میکند یا از آن پیشی میگیرد، در حالی که در زمان استنتاج و آموزش بهطور قابل توجهی کارآمدتر است. این روش، رویکردی مقیاسپذیر و مؤثر برای ICR مبتنی بر LLM ارائه میدهد.»
آنها همچنین اذعان کردند که LLMهای متعددی را آزمایش نکردهاند و این نتایج خاص Mistral 7B هستند.
آیا BlockRank توسط گوگل استفاده میشود؟
مقاله تحقیقاتی هیچ اشارهای به استفاده از BlockRank در محیط عملیاتی زنده نکرده است؛ بنابراین، هرگونه اظهار نظر در مورد استفاده احتمالی آن، صرفاً حدس و گمان است. همچنین، اگرچه طبیعی است که تلاش شود جایگاه BlockRank در حالت AI Mode یا AI Overviews مشخص شود، اما توصیف عملکرد FastSearch و RankEmbed در AI Mode تفاوتهای اساسی با نحوه کار BlockRank دارد. لذا بعید است که BlockRank با FastSearch یا RankEmbed مرتبط باشد.
چرا BlockRank یک پیشرفت محسوب میشود؟
مقاله تحقیقاتی تأکید میکند که BlockRank یک تکنولوژی پیشگامانه است که سیستم رتبهبندی پیشرفته را برای افراد و سازمانهایی که معمولاً به چنین فناوری رتبهبندی با کیفیت بالا دسترسی ندارند، ممکن میسازد. محققان توضیح میدهند:
«متدولوژی BlockRank با افزایش کارایی و مقیاسپذیری بازیابی درونمتنی (ICR) در مدلهای زبان بزرگ (LLM)، بازیابی معنایی پیشرفته را از نظر محاسباتی عملیتر کرده و میتواند دسترسی به ابزارهای قدرتمند کشف اطلاعات را دموکراتیزه کند. این امر میتواند تحقیقات را تسریع بخشد، نتایج آموزشی را با ارائه سریعتر اطلاعات مرتبط بهبود بخشد و افراد و سازمانها را با قابلیتهای تصمیمگیری بهتر توانمند سازد.»
علاوه بر این، افزایش کارایی بهطور مستقیم به کاهش مصرف انرژی برای برنامههای LLM با نیاز بالا به بازیابی منجر میشود و به توسعه و استقرار هوش مصنوعی پایدارتر از نظر زیستمحیطی کمک میکند. با فعال کردن ICR مؤثر در مدلهای بالقوه کوچکتر یا بهینهتر، BlockRank میتواند دامنه دسترسی این فناوریها را در محیطهای دارای محدودیت منابع نیز گسترش دهد.
متخصصان سئو و ناشران میتوانند نظرات خود را در مورد احتمال استفاده گوگل از این فناوری داشته باشند. در حال حاضر شواهدی برای این امر وجود ندارد، اما پرسش از یکی از کارکنان گوگل در این مورد جالب خواهد بود. به نظر میرسد گوگل در حال آمادهسازی برای در دسترس قرار دادن BlockRank در گیتهاب است، اما هنوز هیچ کدی در آنجا منتشر نشده است.
برای مطالعه بیشتر درباره BlockRank، میتوانید مقاله «رتبهبندی درونمتنی مقیاسپذیر با مدلهای مولد» را مطالعه کنید.
“`
منبع: مشاهده مقاله اصلی

