Learning to rank
یادگیری رتبهبندی یا رتبهبندی به وسیله ماشین آموختهشده
( MLR ) که معمولا به صورت یادگیری نظارتشده، نیمه نظارتشده یا یادگیری تقویتی میباشد کاربرد یادگیری ماشینی است، در ساخت مدلهای رتبهبندی برای سیستمهای بازیابی اطلاعات. [۱] دادههای آموزشی شامل فهرستهایی از آیتمها با ترتیب جزئی مشخص شده بین آیتمها در هر فهرست است. این ترتیب معمولاً با دادن یک امتیاز عددی یا ترتیبی یا یک تصمیم بین دو گزینه (مثلاً "مرتبط" یا "غیر مرتبط") برای هر مورد ایجاد می شود. هدف از ساخت مدل رتبهبندی، رتبهبندی فهرستهای جدید و دیده نشده به روشی مشابه رتبهبندی در دادههای آموزشی است.
برنامه های کاربردی[ویرایش]
در بازیابی اطلاعات[ویرایش]
رتبه بندی بخش مرکزی بسیاری از مشکلات بازیابی اطلاعات است، مانند بازیابی اسناد ، پالایش گروهی ، عقیده کاوی و تبلیغات برخط .
معماری احتمالی یک موتور جستجوی ماشین آموختهشده در شکل به همراه آمدهشده نشان داده شده است.
داده های آموزشی شامل پرس و جوها و اسنادی است که آنها را با درجه ارتباط هر تطابق مطابقت میدهد. ممکن است بهصورت دستی توسط ارزیابهای انسانی (یا رتبهدهندهها ، همانطور که گوگل آنها را میخواند)، که نتایج را برای برخی پرسشها بررسی میکنند و ارتباط هر نتیجه را تعیین میکنند، آماده شود. بررسی ارتباط همه اسناد شدنی نیست، بنابراین معمولاً از روشی به نام ادغام استفاده میشود - فقط چند سند برتر که توسط برخی مدل های رتبه بندی موجود بازیابی شدهاند بررسی میشوند. این روش ممکن است تورش (سوگیری) انتخاب را نشان دهد. متناوبا، از طرف دیگر، دادههای آموزشی ممکن است بهطور خودکار با تجزیه و تحلیل گزارشهای کلیک (یعنی نتایج جستوجویی که کاربران روی آنها کلیک میکنند.)، [۲] زنجیرههای کوئری، [۳] یا از ویژگیهای موتورهای جستوجو مانند موتور جستوجوی گوگل -SearchWiki- (از زمان جایگزینی) استخراج شود. گزارشهای کلیک میتوانند با تمایل کاربران به کلیک کردن بر روی نتایج برتر جستوجو با این فرض که قبلاً رتبه خوبی داشتند، سو گرفته باشند.
داده های آموزشی توسط یک الگوریتم یادگیری برای تولید یک مدل رتبهبندی استفاده میشود که ارتباط اسناد را برای کوئریهای واقعی محاسبه میکند.
به طور معمول، کاربران انتظار دارند که یک کوئری جستوجو در زمان کوتاهی کامل شود (مانند چند صد میلیثانیه برای جستوجوی وب)، که ارزیابی یک مدل رتبهبندی پیچیده را در هر سند در مجموعه نوشتهها غیرممکن میکند، و بنابراین یک طرح دو مرحلهای استفاده میشود. [۴] ابتدا، تعداد کمی از اسنادی که بالقوه مرتبط هستند با استفاده از مدلهای سادهتر بازیابی شناسایی میشوند که امکان ارزیابی سریع کوئری را فراهم میکنند، مانند مدل فضای برداری، مدل بولی ، AND وزندار، [۵] یا BM25 .
این مرحله بازیابی سند -top نامیده میشود و بسیاری از اکتشافات در ادبیات برای سرعت بخشیدن به آن، همانند استفاده از امتیاز کیفیت استاتیک (ثابت) یک سند و شاخصهای طبقهبندیشده، پیشنهاد شدهاند. [۶] در مرحلهی دوم، یک مدل دقیقتر اما از نظر محاسباتی گرانتر ماشین آموختهشده برای رتبهبندی مجدد این اسناد استفاده میگردد.
This article "Learning to rank" is from Wikipedia. The list of its authors can be seen in its historical and/or the page Edithistory:Learning to rank. Articles copied from Draft Namespace on Wikipedia could be seen on the Draft Namespace of Wikipedia and not main one.
- ↑ Mehryar Mohri, Afshin Rostamizadeh, Ameet Talwalkar (2012) Foundations of Machine Learning, The MIT Press شابک ۹۷۸۰۲۶۲۰۱۸۲۵۸.
- ↑ Joachims, T. (2002), "Optimizing Search Engines using Clickthrough Data" (PDF), Proceedings of the ACM Conference on Knowledge Discovery and Data Mining, archived from the original (PDF) on 2009-12-29, retrieved 2009-11-11صفحه پودمان:Citation/CS1/en/styles.css محتوایی ندارد.
- ↑ خطای لوآ در پودمان:Citation/CS1/en/Identifiers در خط 47: attempt to index field 'wikibase' (a nil value).
- ↑ B. Cambazoglu; H. Zaragoza; O. Chapelle; J. Chen; C. Liao; Z. Zheng; J. Degenhardt., "Early exit optimizations for additive machine learned ranking systems" (PDF), WSDM '10: Proceedings of the Third ACM International Conference on Web Search and Data Mining, 2010., archived from the original (PDF) on 2019-08-28, retrieved 2009-12-23صفحه پودمان:Citation/CS1/en/styles.css محتوایی ندارد.
- ↑ خطای لوآ در پودمان:Citation/CS1/en/Identifiers در خط 47: attempt to index field 'wikibase' (a nil value).
- ↑ Manning C.; Raghavan P.; Schütze H. (2008), Introduction to Information Retrieval, Cambridge University Pressصفحه پودمان:Citation/CS1/en/styles.css محتوایی ندارد.. Section 7.1 بایگانیشده در ۲۰۰۹-۰۷-۱۹ توسط Wayback Machine