You can edit almost every page by Creating an account. Otherwise, see the FAQ.

Learning to rank

از EverybodyWiki Bios & Wiki
پرش به:ناوبری، جستجو


یادگیری رتبه‌بندی یا رتبه‌بندی به‌ وسیله ماشین آموخته‌شده

( MLR ) که معمولا به صورت یادگیری نظارت‌شده، نیمه نظارت‌شده یا یادگیری تقویتی می‌باشد کاربرد یادگیری ماشینی است، در ساخت مدل‌های رتبه‌بندی برای سیستم‌های بازیابی اطلاعات. [۱] داده‌های آموزشی شامل فهرست‌هایی از آیتم‌ها با ترتیب جزئی مشخص شده بین آیتم‌ها در هر فهرست است. این ترتیب معمولاً با دادن یک امتیاز عددی یا ترتیبی یا یک تصمیم بین دو گزینه (مثلاً "مرتبط" یا "غیر مرتبط") برای هر مورد ایجاد می شود. هدف از ساخت مدل رتبه‌بندی، رتبه‌بندی فهرست‌های جدید و دیده نشده به روشی مشابه رتبه‌بندی در داده‌های آموزشی است.

برنامه های کاربردی[ویرایش]

در بازیابی اطلاعات[ویرایش]

معماری احتمالی یک موتور جستجوی ماشین آموخته‌شده.

رتبه بندی بخش مرکزی بسیاری از مشکلات بازیابی اطلاعات است، مانند بازیابی اسناد ، پالایش گروهی ، عقیده کاوی و تبلیغات برخط .

معماری احتمالی یک موتور جستجوی ماشین آموخته‌شده در شکل به همراه آمده‌شده نشان داده شده است.

داده های آموزشی شامل پرس و جوها و اسنادی است که آنها را با درجه ارتباط هر تطابق مطابقت می‌دهد. ممکن است به‌صورت دستی توسط ارزیاب‌های انسانی (یا رتبه‌دهنده‌ها ، همانطور که گوگل آن‌ها را می‌خواند)، که نتایج را برای برخی پرسش‌ها بررسی می‌کنند و ارتباط هر نتیجه را تعیین می‌کنند، آماده شود. بررسی ارتباط همه اسناد شدنی نیست، بنابراین معمولاً از روشی به نام ادغام استفاده می‌شود - فقط چند سند برتر که توسط برخی مدل های رتبه بندی موجود بازیابی شده‌اند بررسی می‌شوند. این روش ممکن است تورش (سوگیری) انتخاب را نشان دهد. متناوبا، از طرف دیگر، داده‌های آموزشی ممکن است به‌طور خودکار با تجزیه و تحلیل گزارش‌های کلیک (یعنی نتایج جست‌وجویی که کاربران روی آنها کلیک می‌کنند.)، [۲] زنجیره‌های کوئری، [۳] یا از ویژگی‌های موتورهای جست‌وجو مانند موتور جست‌وجوی گوگل -SearchWiki- (از زمان جایگزینی) استخراج شود. گزارش‌های کلیک می‌توانند با تمایل کاربران به کلیک کردن بر روی نتایج برتر جست‌وجو با این فرض که قبلاً رتبه‌ خوبی داشتند، سو گرفته باشند.

داده های آموزشی توسط یک الگوریتم یادگیری برای تولید یک مدل رتبه‌بندی استفاده می‌شود که ارتباط اسناد را برای کوئری‌های واقعی محاسبه می‌کند.

به طور معمول، کاربران انتظار دارند که یک کوئری جست‌وجو در زمان کوتاهی کامل شود (مانند چند صد میلی‌ثانیه برای جست‌وجوی وب)، که ارزیابی یک مدل رتبه‌بندی پیچیده را در هر سند در مجموعه نوشته‌ها غیرممکن می‌کند، و بنابراین یک طرح دو مرحله‌ای استفاده می‌شود. [۴] ابتدا، تعداد کمی از اسنادی که بالقوه مرتبط هستند با استفاده از مدل‌های ساده‌تر بازیابی شناسایی می‌شوند که امکان ارزیابی سریع کوئری را فراهم می‌کنند، مانند مدل فضای برداری، مدل بولی ، AND وزن‌دار، [۵] یا BM25 .

این مرحله بازیابی سند -top نامیده می‌شود و بسیاری از اکتشافات در ادبیات برای سرعت بخشیدن به آن، همانند استفاده از امتیاز کیفیت استاتیک (ثابت) یک سند و شاخص‌های طبقه‌بندی‌شده، پیشنهاد شده‌اند. [۶] در مرحله‌ی دوم، یک مدل دقیق‌تر اما از نظر محاسباتی گران‌تر ماشین آموخته‌شده برای رتبه‌بندی مجدد این اسناد استفاده می‌گردد.


This article "Learning to rank" is from Wikipedia. The list of its authors can be seen in its historical and/or the page Edithistory:Learning to rank. Articles copied from Draft Namespace on Wikipedia could be seen on the Draft Namespace of Wikipedia and not main one.

  1. Mehryar Mohri, Afshin Rostamizadeh, Ameet Talwalkar (2012) Foundations of Machine Learning, The MIT Press شابک ‎۹۷۸۰۲۶۲۰۱۸۲۵۸.
  2. Joachims, T. (2002), "Optimizing Search Engines using Clickthrough Data" (PDF), Proceedings of the ACM Conference on Knowledge Discovery and Data Mining, archived from the original (PDF) on 2009-12-29, retrieved 2009-11-11صفحه پودمان:Citation/CS1/en/styles.css محتوایی ندارد.
  3. خطای لوآ در پودمان:Citation/CS1/en/Identifiers در خط 47: attempt to index field 'wikibase' (a nil value).
  4. B. Cambazoglu; H. Zaragoza; O. Chapelle; J. Chen; C. Liao; Z. Zheng; J. Degenhardt., "Early exit optimizations for additive machine learned ranking systems" (PDF), WSDM '10: Proceedings of the Third ACM International Conference on Web Search and Data Mining, 2010., archived from the original (PDF) on 2019-08-28, retrieved 2009-12-23صفحه پودمان:Citation/CS1/en/styles.css محتوایی ندارد.
  5. خطای لوآ در پودمان:Citation/CS1/en/Identifiers در خط 47: attempt to index field 'wikibase' (a nil value).
  6. Manning C.; Raghavan P.; Schütze H. (2008), Introduction to Information Retrieval, Cambridge University Pressصفحه پودمان:Citation/CS1/en/styles.css محتوایی ندارد.. Section 7.1 بایگانی‌شده در ۲۰۰۹-۰۷-۱۹ توسط Wayback Machine


Read or create/edit this page in another language[ویرایش]