متریک کیفیت در یادگیری ماشینی به چه معناست؟ آموزش رتبه بندی

در فرآیند آماده سازی مسئله برای آزمون ورودی مدرسه تابستانی GoTo، متوجه شدیم که عملاً هیچ توصیف کیفی معیارهای رتبه بندی اصلی به زبان روسی وجود ندارد (مشکل مربوط به یک مورد خاص از مشکل رتبه بندی - ساخت یک الگوریتم توصیه ای) است. . ما در E-Contenta به طور فعال از معیارهای رتبه بندی مختلف استفاده می کنیم، بنابراین تصمیم گرفتیم با نوشتن این مقاله این سوء تفاهم را اصلاح کنیم.

وظیفه رتبه‌بندی اکنون در همه جا مطرح می‌شود: مرتب‌سازی صفحات وب بر اساس یک عبارت جستجوی معین، شخصی‌سازی فید خبری، توصیه ویدیوها، محصولات، موسیقی... در یک کلام، موضوع داغ است. حتی جهت خاصی در یادگیری ماشین وجود دارد که به مطالعه الگوریتم های رتبه بندی با قابلیت خودآموزی می پردازد - یادگیری رتبه بندی. برای انتخاب بهترین ها از بین انواع الگوریتم ها و رویکردها، لازم است بتوانیم کیفیت آنها را به صورت کمی ارزیابی کنیم. رایج ترین معیارهای کیفیت رتبه بندی در زیر مورد بحث قرار خواهند گرفت.

به طور خلاصه در مورد وظیفه رتبه بندی

رتبه بندی وظیفه مرتب سازی یک مجموعه است عناصربه دلایل خود ارتباط... بیشتر اوقات، ارتباط در رابطه با هیچ کس درک نمی شود هدف - شی... به عنوان مثال، در یک کار جستجوی اطلاعات، یک شی یک درخواست است، عناصر اسناد مختلف (پیوندهایی به آنها) و مرتبط بودن مطابقت یک سند با یک درخواست است، در یک کار توصیه، یک شی یک کاربر است، عناصر یک یا یکی دیگر از محتوای توصیه شده (محصولات، ویدیوها، موسیقی) و ارتباط احتمال استفاده کاربر (خرید / دوست داشتن / مشاهده) از محتوای داده شده است.

به طور رسمی، N شی و عناصر M را در نظر بگیرید. نتیجه کار الگوریتم برای رتبه‌بندی عناصر برای یک شی، نقشه‌برداری است که به هر عنصر وزنی اختصاص می‌دهد که درجه ارتباط یک عنصر را با یک شی مشخص می‌کند (هر چه وزن بالاتر باشد، شی مرتبط‌تر است). در این حالت، مجموعه وزن‌ها یک جایگشت را بر روی مجموعه عناصر (فرض می‌کنیم که مجموعه عناصر مرتب شده‌اند) بر اساس مرتب‌سازی آن‌ها به ترتیب وزن نزولی مشخص می‌کند.

برای ارزیابی کیفیت رتبه بندی، لازم است یک "استاندارد" مشخصی وجود داشته باشد که بتوان نتایج الگوریتم را با آن مقایسه کرد. - تابع ارتباط مرجع را در نظر بگیرید، که ارتباط "واقعی" عناصر را برای یک شی معین مشخص می کند (- عنصر کامل است، - کاملا بی ربط است)، و همچنین جایگشت مربوطه (به ترتیب نزولی).

دو راه اصلی برای دریافت آن وجود دارد:
1. بر اساس داده های تاریخی. به عنوان مثال، در مورد توصیه های محتوا، می توانید بازدیدهای کاربر (لایک ها، خریدها) را بگیرید و وزن های مشاهده شده عناصر مربوطه را 1 () و 0 برای سایر عناصر اختصاص دهید.
2. بر اساس قضاوت کارشناسی. به عنوان مثال، در یک کار جستجو، برای هر درخواست، می توانید تیمی از ارزیابان را درگیر کنید که به صورت دستی ارتباط اسناد را با درخواست ارزیابی می کنند.

شایان ذکر است که وقتی فقط مقادیر شدید را می گیرد: 0 و 1، آنگاه جایگشت معمولاً در نظر گرفته نمی شود و فقط مجموعه ای از عناصر مربوطه برای آنها در نظر گرفته می شود.

هدف از معیار کیفیت رتبه بندی- برای تعیین اینکه امتیازهای مربوط به دست آمده توسط الگوریتم و جایگشت مربوطه تا چه حد مطابقت دارند. درست است، واقعیارزش های مرتبط بیایید معیارهای اصلی را در نظر بگیریم.

میانگین دقت متوسط

میانگین دقت متوسط در K ( [ایمیل محافظت شده]) یکی از پرکاربردترین معیارهای کیفیت رتبه بندی است. برای درک چگونگی کارکرد آن، بیایید با "مبانی" شروع کنیم.

توجه: معیارهای "* دقت" در مسائل باینری استفاده می شود، جایی که تنها دو مقدار را می گیرد: 0 و 1.

دقت در K

دقت در K ( [ایمیل محافظت شده]) - دقت در عناصر K - معیار اصلی کیفیت رتبه بندی برای یک شی. فرض کنید الگوریتم رتبه‌بندی ما برای هر آیتم امتیازهای مرتبط ایجاد کرده است. با انتخاب اولین عناصر دارای بزرگترین در بین آنها، می توانید نسبت عناصر مرتبط را محاسبه کنید. این دقیقاً همان کاری است که دقت در K انجام می دهد:

نکته: منظور عنصری است که در نتیجه جابجایی در جایگاه th قرار گرفت. بنابراین، - عنصر با بزرگترین، - عنصر با دومین بزرگ، و غیره.

دقت متوسط در K

دقت در K معیاری است که درک و پیاده سازی آن آسان است، اما یک اشکال مهم دارد - ترتیب موارد در "بالا" را در نظر نمی گیرد. بنابراین، اگر از ده عنصر فقط یک مورد را حدس بزنیم، مهم نیست که کجا بوده است: در اولین، یا در آخرین، در هر صورت. در عین حال بدیهی است که گزینه اول بسیار بهتر است.

این نقطه ضعف با معیار رتبه بندی جبران می شود. دقت متوسط در K ( [ایمیل محافظت شده]) که برابر با جمع است [ایمیل محافظت شده]با شاخص های k از 1 تا K فقط برای موارد مرتبطتقسیم بر K:

بنابراین، اگر از بین سه عنصر ما فقط در وهله آخر مرتبط بودیم، پس اگر فقط عنصری را که در وهله اول بود حدس زدیم، پس، و اگر همه چیز حدس زده شد، پس.

اکنون و [ایمیل محافظت شده]در دندان های ما

میانگین دقت متوسط در K

میانگین دقت متوسط در K ( [ایمیل محافظت شده]) یکی از متداول ترین معیارهای کیفیت رتبه بندی است. V [ایمیل محافظت شده]و [ایمیل محافظت شده]کیفیت رتبه بندی برای یک شی واحد (کاربر، پرس و جوی جستجو) ارزیابی می شود. در عمل، اشیاء زیادی وجود دارد: ما با صدها هزار کاربر، میلیون ها درخواست جستجو و غیره سر و کار داریم. اندیشه [ایمیل محافظت شده]شمردن است [ایمیل محافظت شده]برای هر شی و میانگین:

توجه: این ایده کاملاً منطقی است، با این فرض که همه کاربران به یک اندازه مورد نیاز و به یک اندازه مهم هستند. اگر اینطور نیست، به جای میانگین‌گیری ساده، می‌توانید از یک وزنی ضرب کنید [ایمیل محافظت شده]هر جسم بر حسب وزن مربوط به "اهمیت" آن است.

سود تجمعی با تخفیف عادی

سود تجمعی تنزیل شده عادی (nDCG)یکی دیگر از معیارهای رایج رتبه بندی کیفیت است. همانطور که با [ایمیل محافظت شده]، بیایید با اصول اولیه شروع کنیم.

سود تجمعی در K

مجدداً یک شیء و عنصر با بزرگترین را در نظر بگیرید. سود تجمعی در K ( [ایمیل محافظت شده]) یک معیار رتبه‌بندی پایه است که از یک ایده ساده استفاده می‌کند: هرچه موارد مرتبط‌تر در این صفحه برتر باشد، بهتر است:

این معیار دارای اشکالات آشکار است: نرمال سازی نشده است و موقعیت عناصر مربوطه را در نظر نمی گیرد.

توجه داشته باشید که بر خلاف [ایمیل محافظت شده], [ایمیل محافظت شده]همچنین می تواند در مورد مقادیر مرتبط مرجع غیر باینری استفاده شود.

سود تجمعی با تخفیف در K

سود تجمعی تنزیل شده در K ( [ایمیل محافظت شده]) - اصلاح بهره تجمعی در K، با در نظر گرفتن ترتیب عناصر در لیست با ضرب ارتباط عنصر در وزنی برابر با لگاریتم معکوس شماره موقعیت:

توجه: اگر فقط مقادیر 0 و 1 را بگیرد، پس و فرمول شکل ساده تری به خود می گیرد:

استفاده از لگاریتم به عنوان یک تابع تخفیف را می توان با دلایل شهودی زیر توضیح داد: از نقطه نظر رتبه بندی، موقعیت های ابتدای لیست بسیار بیشتر از موقعیت های انتهای لیست متفاوت است. بنابراین، در مورد یک موتور جستجو، یک شکاف کامل بین موقعیت های 1 و 11 وجود دارد (تنها در چند مورد از صد مورد، کاربر وارد صفحه اول نتایج جستجو می شود) و تفاوت چندانی بین آنها وجود ندارد. موقعیت های 101 و 111 - افراد کمی به آنها می رسند. این ملاحظات ذهنی با استفاده از لگاریتم به خوبی بیان می شوند:

سود انباشته تنزیل شده مشکل در نظر گرفتن موقعیت عناصر مربوطه را حل می کند، اما فقط مشکل را با عدم عادی سازی تشدید می کند: اگر در محدوده ها تغییر کند، در حال حاضر مقادیر را در یک بخش کاملاً واضح به دست می آورد. متریک زیر برای حل این مشکل در نظر گرفته شده است.

سود تجمعی با تخفیف عادی در K

همانطور که ممکن است از نام آن حدس بزنید، سود تجمعی تنزیل شده نرمال شده در K ( [ایمیل محافظت شده]) - چیزی بیش از یک نسخه عادی [ایمیل محافظت شده]:

حداکثر مقدار (I - ایده آل) کجاست. از آنجایی که ما توافق کرده‌ایم که ارزش‌ها را در خود می‌گیرد، پس.

بنابراین، از در نظر گرفتن موقعیت عناصر در لیست به ارث می رسد و در عین حال، مقادیری را در محدوده 0 تا 1 می گیرد.

توجه: به قیاس با [ایمیل محافظت شده]را می توان محاسبه کرد و روی همه اشیا میانگین گرفت.

میانگین رتبه متقابل

میانگین رتبه متقابل (MRR)یکی دیگر از معیارهای رایج رتبه بندی کیفیت است. با فرمول زیر ارائه می شود:

جایی که - رتبه متقابل برای شی هفتم - یک مقدار بسیار ساده در ذات برابر با رتبه معکوس اولین عنصری که به درستی حدس زده شده است.

میانگین رتبه متقابل در محدوده متفاوت است و موقعیت عناصر را در نظر می گیرد. متأسفانه، او این کار را فقط برای یک عنصر انجام می دهد - اولین مورد به درستی پیش بینی شده است، بدون توجه به همه موارد بعدی.

معیارهای همبستگی رتبه

به طور جداگانه، ارزش دارد که معیارهای کیفیت رتبه بندی بر اساس یکی از ضرایب برجسته شود. همبستگی رتبه... در آمار، ضریب همبستگی رتبه، ضریب همبستگی است که نه خود مقادیر، بلکه فقط رتبه (ترتیب) آنها را در نظر می گیرد. دو ضریب همبستگی رتبه ای رایج را در نظر بگیرید: اسپیرمن و کندال.

ضریب همبستگی رتبه کندال

اولین مورد، ضریب همبستگی کندال است که بر اساس محاسبه سازگار است.
جفت‌های جایگشت (و ناهماهنگ) - جفت‌هایی از عناصر که جایگشت‌ها به ترتیب (متفاوت) یکسانی به آنها اختصاص داده شده است:

ضریب همبستگی رتبه اسپیرمن

دوم - ضریب همبستگی رتبه اسپیرمن - در واقع چیزی نیست جز همبستگی پیرسون که بر روی مقادیر رتبه ها محاسبه می شود. یک فرمول نسبتا راحت وجود دارد که آن را مستقیماً از رتبه ها بیان می کند:

ضریب همبستگی پیرسون کجاست

معیارهای همبستگی رتبه یک اشکالی دارند که قبلاً می دانیم: آنها موقعیت عناصر را در نظر نمی گیرند (حتی بدتر از [ایمیل محافظت شده]از آنجا که همبستگی برای همه عناصر محاسبه می شود، نه برای عناصر K با بالاترین رتبه). بنابراین، در عمل، آنها بسیار به ندرت استفاده می شوند.

متریک های آبشاری

تا این مرحله، ما در مورد چگونگی مطالعه عناصر ارائه شده توسط کاربر (در ادامه یک مورد خاص از شی - کاربر) را بررسی نکرده ایم. در واقع، ما به طور ضمنی این فرض را داشتیم که مشاهده هر عنصر مستقلاز مشاهده عناصر دیگر - نوعی "ساده لوحی". اما در عمل، کاربر اغلب موارد را تک تک مشاهده می کند و اینکه کاربر آیتم بعدی را مشاهده کند بستگی به رضایت او از آیتم های قبلی دارد. یک مثال را در نظر بگیرید: در پاسخ به یک پرس و جو، الگوریتم رتبه بندی چندین سند را به کاربر ارائه می دهد. اگر اسناد در موقعیت های 1 و 2 بسیار مرتبط بودند، احتمال اینکه کاربر سند را در موقعیت 3 مشاهده کند، کم است، زیرا او از دو مورد اول کاملا راضی خواهد بود.

مدل های مشابه رفتار کاربر، که در آن مطالعه عناصر پیشنهاد شده به او به صورت متوالی اتفاق می افتد و احتمال مشاهده عنصر به ارتباط موارد قبلی بستگی دارد، نامیده می شوند. آبشاری.

رتبه متقابل مورد انتظار

رتبه متقابل مورد انتظار (ERR)- نمونه ای از معیار کیفیت رتبه بندی بر اساس مدل آبشار. با فرمول زیر ارائه می شود:

جایی که رتبه به ترتیب کاهشی درک می شود. جالب ترین چیز در مورد این متریک احتمالات است. هنگام محاسبه آنها، از مفروضات مدل آبشاری استفاده می شود:

احتمال اینکه کاربر از شی با رتبه راضی باشد کجاست. این احتمالات بر اساس مقادیر محاسبه می شوند. از آنجایی که در مورد ما، می توانیم یک گزینه ساده را در نظر بگیریم:

که می توان آن را به صورت زیر خواند: ارتباط واقعی عنصر در موقعیت در پایان، در اینجا چند لینک مفید وجود دارد.

در عناصر داخل هر لیست. ترتیب جزئی معمولاً با تعیین یک امتیاز برای هر عنصر مشخص می شود (به عنوان مثال، "مرتبط" یا "نامرتبط"؛ بیش از دو درجه ممکن است). هدف از مدل رتبه بندی تقریب و تعمیم به بهترین شکل (به یک معنا) روش رتبه بندی در مجموعه آموزشی برای داده های جدید است.

یادگیری رتبه‌بندی هنوز یک حوزه تحقیقاتی نسبتاً جوان و به سرعت در حال توسعه است که در دهه 2000 با ظهور علاقه در زمینه بازیابی اطلاعات در کاربرد روش‌های یادگیری ماشین برای رتبه‌بندی مشکلات پدیدار شد.

یوتیوب دانشگاهی

1 / 5

در طول آموزش مدل رتبه‌بندی و در طول عملیات آن، هر جفت سند-درخواست به یک بردار عددی از ویژگی‌های رتبه‌بندی (که فاکتورها یا سیگنال‌های رتبه‌بندی نیز نامیده می‌شوند) ترجمه می‌شود که ویژگی‌های سند، درخواست و رابطه آنها را مشخص می‌کند. چنین علائمی را می توان به سه گروه تقسیم کرد:

در زیر چند نمونه از ویژگی های رتبه بندی مورد استفاده در مجموعه داده LETOR که به طور گسترده در این هنر شناخته شده است آورده شده است:

مقادیر اندازه گیری TF، TF-IDF، BM25، و مدل زبان تطبیق درخواست مناطق مختلف سند (عنوان، URL، متن متن، متن پیوند).
طول و تعداد اسراییل مناطق سند.
رتبه های اسناد توسط انواع مختلف الگوریتم های رتبه بندی لینک مانند PageRank و HITS به دست می آیند.

معیارهای کیفیت رتبه بندی

معیارهای مختلفی وجود دارد که عملکرد الگوریتم های رتبه بندی را روی یک نمونه با ارزیابان ارزیابی و مقایسه می کند. اغلب، پارامترهای مدل رتبه بندی به گونه ای تنظیم می شوند که مقدار یکی از این معیارها را به حداکثر برسانند.

نمونه هایی از معیارها:

طبقه بندی الگوریتم

تای یانگ لیو از Microsoft Research Asia در مقاله خود "یادگیری رتبه برای بازیابی اطلاعات" و سخنرانی در کنفرانس های موضوعی، روش های موجود برای حل مشکل رتبه بندی تدریس را تجزیه و تحلیل کرد و طبقه بندی آنها را به سه رویکرد، بسته به بازنمایی ورودی استفاده شده پیشنهاد کرد. توابع داده و جریمه:

رویکرد نقطه ای

یادداشت ها (ویرایش)

Tie-Yan Liu (2009) آموزش رتبه بندی برای بازیابی اطلاعات، مبانی و روند بازیابی اطلاعات: جلد. 3: شماره 3، ص. 225-331, ISBN 978-1-60198-244-5, DOI 10.1561 / 1500000016... اسلایدهایی از سخنرانی T. Lew در WWW 2009 موجود است.

سلام، هابر!

در وظایف یادگیری ماشینی، معیارها برای ارزیابی کیفیت مدل‌ها و مقایسه الگوریتم‌های مختلف مورد استفاده قرار می‌گیرند و انتخاب و تجزیه و تحلیل آن‌ها بخشی ضروری از کار دیتاسیتانیست است.

در این مقاله، ما به برخی از معیارهای کیفیت در مسائل طبقه‌بندی نگاه می‌کنیم، در مورد مواردی که هنگام انتخاب یک متریک مهم است و چه چیزی ممکن است اشتباه پیش برود، بحث خواهیم کرد.

معیارها در مسائل طبقه بندی

برای نشان دادن ویژگی های مفید اسکلره کردنو یک نمایش بصری از معیارها، ما از مجموعه داده‌های خود برای ریزش مشتریان یک اپراتور مخابراتی استفاده خواهیم کرد که در اولین مقاله دوره با آن آشنا شدیم.

بیایید کتابخانه های لازم را بارگذاری کنیم و به داده ها نگاه کنیم

پانداها را به‌عنوان pd وارد کنید matplotlib.pyplot به‌عنوان plt از matplotlib.pylab واردات rc، نمودار واردات دریایی به‌عنوان sns از sklearn.preprocessing واردات LabelmbleEncoder، OneHotEncoder از sklearn.model_selection واردات cross_val_score از sklearn_val_score از sklearn. از sklearn.model_selection واردات train_test_split df = pd.read_csv ("../../ data / telecom_churn.csv")

Df.head (5)

پیش پردازش داده ها

# بیایید ستون های باینری را نقشه برداری کنیم و حالت را با کدگذاری ساختگی رمزگذاری کنیم (برای سادگی، بهتر است این کار را برای مدل های چوبی انجام ندهید) d = ("بله": 1، "نه": 0) df ["طرح بین المللی"] = df ["طرح بین المللی"]. نقشه (d) df ["طرح پست صوتی"] = df ["طرح پست صوتی"]. نقشه (d) df [" Churn "] = df [" Churn "]. Astype (" int64 " ) le = LabelEncoder () df ["State"] = le.fit_transform (df ["State"]) ohe = OneHotEncoder (sparse = False) encoded_state = ohe.fit_transform (df ["State"]. مقادیر .reshape (- 1، 1)) tmp = pd.DataFrame (وضعیت_کدگذاری شده، ستون‌ها = ["state" + str (i) برای i در محدوده (encoded_state.shape)]) df = pd.concat (، محور = 1)

دقت، دقت و یادآوری

قبل از اینکه به خود معیارها بپردازیم، لازم است یک مفهوم مهم برای توصیف این معیارها از نظر خطاهای طبقه بندی معرفی کنیم - ماتریس سردرگمی(ماتریس خطا).
فرض کنید ما دو کلاس و یک الگوریتم داریم که تعلق هر شی به یکی از کلاس ها را پیش بینی می کند، ماتریس خطای طبقه بندی به شکل زیر خواهد بود:


	مثبت واقعی (TP)	مثبت کاذب (FP)
	منفی کاذب (FN)	منفی واقعی (TN)

این پاسخ الگوریتم روی جسم است و

برچسب کلاس واقعی روی این شی.
بنابراین، دو نوع خطای طبقه بندی وجود دارد: منفی کاذب (FN) و مثبت کاذب (FP).

آموزش الگوریتم و ساخت ماتریس خطا

X = df.drop ("Churn", axis = 1) y = df ["Churn"] # نمونه را به قطار و آزمایش تقسیم کنید، همه معیارها در مجموعه داده آزمایشی X_train، X_test، y_train، y_test = train_test_split ارزیابی می‌شوند. X, y , stratify = y, test_size = 0.33, random_state = 42) # آموزش رگرسیون لجستیک بومی lr = LogisticRegression (حالت_تصادفی = 42) lr.fit (X_train, y_train) # از تابع برای ساخت ماتریس خطا از klearn استفاده کنید مستندات def plot_confusion_matrix (cm, classes , normalize = False, title = "(! LANG: Confusion Matrix", cmap=plt.cm.Blues): """ This function prints and plots the confusion matrix. Normalization can be applied by setting `normalize=True`. """ plt.imshow(cm, interpolation="nearest", cmap=cmap) plt.title(title) plt.colorbar() tick_marks = np.arange(len(classes)) plt.xticks(tick_marks, classes, rotation=45) plt.yticks(tick_marks, classes) if normalize: cm = cm.astype("float") / cm.sum(axis=1)[:, np.newaxis] print("Normalized confusion matrix") else: print("Confusion matrix, without normalization") print(cm) thresh = cm.max() / 2. for i, j in itertools.product(range(cm.shape), range(cm.shape)): plt.text(j, i, cm, horizontalalignment="center", color="white" if cm > thresh else "black") plt.tight_layout() plt.ylabel("True label") plt.xlabel("Predicted label") font = {"size" : 15} plt.rc("font", **font) cnf_matrix = confusion_matrix(y_test, lr.predict(X_test)) plt.figure(figsize=(10, 8)) plot_confusion_matrix(cnf_matrix, classes=["Non-churned", "Churned"], title="ماتریس سردرگمی") plt.savefig("conf_matrix.png") plt.show()!}

دقت

یک متریک بصری، واضح و تقریباً استفاده نشده دقت است - درصد پاسخ‌های صحیح الگوریتم:

این متریک در مسائل با کلاس های نابرابر بی فایده است و نشان دادن آن با یک مثال آسان است.

فرض کنید می خواهیم عملکرد یک فیلتر ایمیل هرزنامه را ارزیابی کنیم. ما 100 ایمیل غیر هرزنامه داریم که 90 تای آنها را طبقه بندی کننده ما به درستی شناسایی کرده است (منفی واقعی = 90، مثبت غلط = 10) و 10 ایمیل هرزنامه، 5 مورد از آنها را طبقه بندی کننده نیز به درستی شناسایی کرده است (مثبت واقعی = 5، منفی نادرست = 5) .
سپس دقت:

با این حال، اگر به سادگی همه ایمیل‌ها را غیر اسپم پیش‌بینی کنیم، دقت بالاتری دریافت خواهیم کرد:

در عین حال، مدل ما مطلقاً هیچ قدرت پیش بینی ندارد، زیرا ما در ابتدا می خواستیم پیام های هرزنامه را شناسایی کنیم. برای غلبه بر این امر، انتقال از یک معیار مشترک برای همه طبقات به شاخص های جداگانه کیفیت کلاس ها به ما کمک می کند.

دقت، فراخوان و اندازه گیری F

برای ارزیابی عملکرد الگوریتم در هر یک از کلاس ها به طور جداگانه، معیارهای دقت و یادآوری را معرفی می کنیم.

دقت را می توان به عنوان نسبت اشیاء نامگذاری شده توسط طبقه بندی کننده به عنوان مثبت و در عین حال واقعاً مثبت تفسیر کرد و یادآوری نشان می دهد که چه نسبتی از اشیاء یک کلاس مثبت از همه اشیاء یک کلاس مثبت توسط الگوریتم پیدا شده است.

این مقدمه دقت است که به ما اجازه نمی دهد همه اشیاء را در یک کلاس بنویسیم، زیرا در این حالت سطح مثبت کاذب افزایش می یابد. Recall توانایی الگوریتم در تشخیص یک کلاس معین را به طور کلی نشان می دهد و دقت توانایی تشخیص این کلاس را از سایر کلاس ها نشان می دهد.

همانطور که قبلاً اشاره کردیم، دو نوع خطای طبقه بندی وجود دارد: مثبت کاذب و منفی کاذب. در آمار، خطای نوع اول را خطای نوع اول و خطای دوم را خطای نوع دوم می نامند. در مشکل ما در تعیین ریزش مشترک، اشتباه نوع اول پذیرش مشترک وفادار برای مشترک خروجی خواهد بود، زیرا فرضیه صفر ما این است که هیچ یک از مشترکین خارج نمی شوند و ما این فرضیه را رد می کنیم. بر این اساس، خطای نوع دوم «پرش» مشترک خروجی و پذیرش اشتباه فرضیه صفر خواهد بود.

دقت و یادآوری، برخلاف دقت، به نسبت کلاس‌ها بستگی ندارد و بنابراین در شرایط نمونه‌های نامتعادل قابل اعمال است.
اغلب در عمل واقعی، وظیفه یافتن تعادل بهینه (برای مشتری) بین این دو معیار است. یک مثال کلاسیک مشکل تعیین ریزش مشتری است.
بدیهی است که ما نمی توانیم پیدا کنیم از همهمشتریان خروجی و فقطآنها اما با شناسایی استراتژی و منبع حفظ مشتری، می‌توانیم آستانه‌های دقت و فراخوان لازم را انتخاب کنیم. به عنوان مثال، می‌توانید فقط روی حفظ مشتریان با بازده بالا یا کسانی که احتمال بیشتری برای گزارش‌دهی دارند تمرکز کنید، زیرا ما توسط منبع مرکز تماس محدود شده‌ایم.

معمولاً هنگام بهینه سازی هایپرپارامترهای یک الگوریتم (به عنوان مثال، در مورد تکرار روی یک شبکه GridSearchCV) از یک متریک استفاده شده است که انتظار داریم بهبود آن را در نمونه آزمایشی مشاهده کنیم.
چندین راه مختلف برای ترکیب دقت و یادآوری در یک مقیاس کلی از کیفیت وجود دارد. اندازه گیری F (به طور کلی

) - دقت و یادآوری میانگین هارمونیک:

در این حالت وزن دقت را در متریک و برای تعیین می کند

این میانگین هارمونیک است (با ضریب 2، به طوری که در مورد دقت = 1 و فراخوانی = 1، ما داریم

)
F-measure زمانی به حداکثر می رسد که کامل بودن و دقت برابر با یک باشد و اگر یکی از آرگومان ها نزدیک به صفر باشد به صفر نزدیک می شود.
Sklearn یک تابع مفید _metrics.classification دارد گزارشیادآوری بازگشت، دقت و اندازه گیری F برای هر یک از کلاس ها، و همچنین تعداد نمونه های هر کلاس.

Report = classification_report (y_test, lr.predict (X_test), target_names = ["Non-churned", "Churned"]) print (گزارش)

کلاس	دقت، درستی	به خاطر آوردن	f1-امتیاز	حمایت کردن
غیر کوبیده شده	0.88	0.97	0.93	941
خرد شده	0.60	0.25	0.35	159
میانگین / کل	0.84	0.87	0.84	1100

در اینجا لازم به ذکر است که در مورد مشکلات کلاس های نامتعادل، که در عمل واقعی غالب است، اغلب لازم است که به تکنیک های اصلاح مصنوعی مجموعه داده متوسل شویم تا نسبت کلاس ها برابر شود. تعداد زیادی از آنها وجود دارد و ما به آنها دست نخواهیم داد، می توانید به برخی از روش ها نگاه کنید و روشی را انتخاب کنید که برای کار شما مناسب است.

AUC-ROC و AUC-PR

هنگام تبدیل پاسخ واقعی الگوریتم (به عنوان یک قاعده، احتمال تعلق به یک کلاس، SVM را جداگانه ببینید) به یک برچسب باینری، باید آستانه ای را انتخاب کنیم که در آن 0 تبدیل به 1 شود. آستانه ای برابر با 0.5 طبیعی و نزدیک به نظر می رسد. ، اما به عنوان مثال، در عدم تعادل طبقاتی که در بالا ذکر شد، همیشه مطلوب نیست.

یکی از راه‌های ارزیابی مدل به‌عنوان یک کل، بدون اینکه به یک آستانه خاص گره بخورد، AUC-ROC (یا ROC AUC) است - ناحیه ( آ rea Uافتخار سی urve) زیر منحنی خطا ( آرگیرنده Oدر حال انجام سیمنحنی مشخصه). این منحنی خطی از (0,0) تا (1,1) در مختصات نرخ مثبت واقعی (TPR) و نرخ مثبت کاذب (FPR) است:

ما قبلاً TPR را می دانیم، این کامل بودن است، و FPR نشان می دهد که الگوریتم چه نسبتی از اشیاء کلاس منفی را به اشتباه پیش بینی کرده است. در حالت ایده‌آل، زمانی که طبقه‌بندی‌کننده اشتباهی مرتکب نشود (FPR = 0، TPR = 1)، مساحت زیر منحنی را برابر با یک می‌گیریم، در غیر این صورت، وقتی طبقه‌بندی کننده به‌طور تصادفی احتمالات کلاس را خروجی می‌دهد، AUC-ROC به 0.5 تمایل پیدا می‌کند، زیرا طبقه بندی کننده همان مقدار TP و FP را صادر می کند.
هر نقطه در نمودار مربوط به انتخاب یک آستانه خاص است. سطح زیر منحنی در این مورد کیفیت الگوریتم را نشان می دهد (بیشتر بهتر است)، علاوه بر این، شیب خود منحنی مهم است - ما می خواهیم TPR را با به حداقل رساندن FPR به حداکثر برسانیم، به این معنی که منحنی ما در حالت ایده آل باید تمایل داشته باشد. نقطه (0،1).

کد رسم منحنی ROC

Sns.set (font_scale = 1.5) sns.set_color_codes ("بی صدا") plt.figure (figsize = (10, 8)) fpr, tpr, thresholds = roc_curve (y_test, lr.predict_proba (X_test) [:, 1], pos_label = 1) lw = 2 plt.plot (fpr، tpr، lw = lw، label = "منحنی ROC") plt.plot (،) plt.xlim () plt.ylim () plt.xlabel ("نرخ مثبت کاذب" ") plt.ylabel ("نرخ مثبت واقعی") plt.title ("منحنی ROC") plt.savefig ("ROC.png") plt.show ()

معیار AUC-ROC در برابر کلاس های نامتعادل مقاوم است (اسپویلر: افسوس، اما همه چیز چندان مبهم نیست) و می تواند به عنوان احتمال اینکه یک شی مثبت به طور تصادفی انتخاب شده توسط طبقه بندی کننده بالاتر رتبه بندی شود (احتمال بالاتر بودن را دارد) تفسیر شود. مثبت) نسبت به یک شیء منفی که به طور تصادفی انتخاب شده است.

مشکل زیر را در نظر بگیرید: باید 100 سند مربوطه را از 1 میلیون سند انتخاب کنیم. ما به دو الگوریتم تسلط داریم:

الگوریتم 1 100 سند را برمی گرداند که 90 مورد آن مربوط است. به این ترتیب،

الگوریتم 2 2000 سند را برمی گرداند که 90 مورد آن مربوط است. به این ترتیب،

به احتمال زیاد، ما اولین الگوریتمی را انتخاب می کنیم که در مقایسه با رقیب خود، موارد مثبت کاذب بسیار کمی تولید می کند. اما تفاوت در نرخ مثبت کاذب بین این دو الگوریتم فوق العادهکوچک - فقط 0.0019. این نتیجه از این واقعیت است که AUC-ROC نسبت مثبت کاذب را نسبت به منفی واقعی اندازه می‌گیرد، و در مسائلی که کلاس دوم (بزرگ‌تر) برای ما چندان مهم نیست، ممکن است هنگام مقایسه الگوریتم‌ها تصویر کاملاً مناسبی ارائه نکند. .

برای اصلاح وضعیت، بیایید به کامل بودن و دقت برگردیم:

الگوریتم 1

الگوریتم 2

در اینجا، تفاوت قابل توجهی بین دو الگوریتم در حال حاضر قابل توجه است - 0.855 در دقت!

از دقت و فراخوانی نیز برای ساخت منحنی و مانند AUC-ROC، یافتن ناحیه زیر آن استفاده می شود.

در اینجا می توان اشاره کرد که در مجموعه داده های کوچک، سطح زیر منحنی PR می تواند بیش از حد خوش بینانه باشد، زیرا با استفاده از روش ذوزنقه ای محاسبه می شود، اما معمولاً داده های کافی در چنین وظایفی وجود دارد. برای جزئیات بیشتر در مورد رابطه بین AUC-ROC و AUC-PR، اینجا را ببینید.

ضرر لجستیک

تابع ضرر لجستیک جداست و به صورت زیر تعریف می شود:

این پاسخ الگوریتم است

شی اهم،

برچسب کلاس واقعی روی

شی اهم، و

اندازهی نمونه.

جزئیات در مورد تفسیر ریاضی تابع ضرر لجستیک قبلاً در چارچوب پست در مورد مدل های خطی نوشته شده است.
این معیار به ندرت در الزامات تجاری ظاهر می شود، اما اغلب در وظایف در Kaggle.
به طور شهودی، کمینه سازی logloss را می توان به عنوان وظیفه به حداکثر رساندن دقت با جریمه کردن پیش بینی های نادرست در نظر گرفت. با این حال، باید توجه داشت که logloss به شدت برای اطمینان طبقه بندی کننده به پاسخ اشتباه جریمه می کند.

بیایید یک مثال را در نظر بگیریم:

Def logloss_crutch (y_true، y_pred، eps = 1e-15): return - (y_true * np.log (y_pred) + (1 - y_true) * np.log (1 - y_pred)) چاپ ("Logloss با طبقه بندی نامشخص% f "% logloss_crutch (1, 0.5)) >> Logloss با طبقه بندی نامشخص 0.693147 چاپ (" Logloss با طبقه بندی مطمئن و پاسخ صحیح% f "% logloss_crutch (1, 0.9)) >> Logloss با طبقه بندی مطمئن و پاسخ صحیح 0.105361 چاپ Logloss با طبقه بندی مطمئن و پاسخ اشتباه% f "% logloss_crutch (1, 0.1)) >> Logloss با طبقه بندی مطمئن و پاسخ اشتباه 2.302585

توجه داشته باشید که چگونه logloss با یک پاسخ نادرست و یک طبقه بندی مطمئن به طور چشمگیری رشد کرده است!
در نتیجه، یک خطا در یک شی می تواند منجر به کاهش قابل توجهی از خطای کلی نمونه شود. چنین اشیایی اغلب پرت هستند، که باید به خاطر داشت که فیلتر شوند یا جداگانه در نظر گرفته شوند.
اگر یک نمودار logloss ترسیم کنید، همه چیز در جای خود قرار می گیرد:

مشاهده می شود که هر چه پاسخ الگوریتم با صدق زمین = 1 به صفر نزدیکتر باشد، مقدار خطا بیشتر می شود و منحنی تندتر رشد می کند.

جمع بندی:

در مورد طبقه بندی چند کلاسه، باید معیارهای هر یک از کلاس ها را به دقت رصد کنید و منطق تصمیم را دنبال کنید. وظایفبه جای بهینه سازی متریک
در مورد کلاس های نابرابر، لازم است تعادلی از کلاس ها برای آموزش و معیاری انتخاب شود که به درستی کیفیت طبقه بندی را منعکس کند.
انتخاب معیار باید با تمرکز بر حوزه موضوعی، پیش پردازش داده ها و احتمالاً بخش بندی (مانند تقسیم به مشتریان ثروتمند و فقیر) انجام شود.

لینک های مفید

دوره اوگنی سوکولوف: سمینار در مورد انتخاب مدل ها (اطلاعاتی در مورد معیارهای مشکلات رگرسیون وجود دارد)
مشکلات در AUC-ROC از A.G. دیاکونوا
می‌توانید در مورد سایر معیارها در Kaggle اطلاعات بیشتری کسب کنید. پیوندی به مسابقه ای که در آن مورد استفاده قرار گرفته است به توضیحات هر معیار اضافه شده است
ارائه توسط بوگدان ملنیک با نام مستعار ld86 در مورد آموزش بر روی نمونه های نامتعادل

UDC 519.816

S. V. SEMENIKHIN L. A. DENISOVA

دانشگاه فنی دولتی اومسک

روش یادگیری ماشین های برد

بر اساس یک الگوریتم ژنتیکی اصلاح شده برای متریک YRSO

مشکل رتبه بندی اسناد در صفحه نتایج جستجوی اطلاعات و مسائل یادگیری ماشین رتبه بندی در نظر گرفته شده است. رویکردی برای بهینه‌سازی تابع رتبه‌بندی با استفاده از معیار کیفیت NOCO بر اساس یک الگوریتم ژنتیک اصلاح‌شده پیشنهاد شده‌است. تحقیق الگوریتم های توسعه یافته انجام شد (بر روی مجموعه های آزمایشی LETO ^ و اثربخشی آنها برای رتبه بندی یادگیری ماشین نشان داده شد.

کلمات کلیدی: بازیابی اطلاعات، رتبه بندی یادگیری ماشین، ارتباط، بهینه سازی، الگوریتم های ژنتیک.

1. مقدمه. در سیستم‌های بازیابی اطلاعات مدرن (ISS)، حجم داده‌های مورد استفاده توسط سیستم آنقدر زیاد است که وظیفه اصلی رتبه‌بندی اسناد مربوطه در پاسخ به درخواست جستجوی کاربر است. در این مرحله از توسعه ISS، رتبه‌بندی یادگیری ماشین (ML) بیشترین علاقه را دارد. رویکردهای موجود به ML، مبتنی بر روش‌های عددی (به‌ویژه، روش‌های گرادیان) یا بر اساس محاسبات تحلیلی، دارای معایبی هستند که به طور قابل‌توجهی بر کیفیت بازیابی اطلاعات و زمان مورد نیاز برای رتبه‌بندی اسناد مربوطه تأثیر می‌گذارد.

در ابتدای تحقیق، رویکردهای فهرستی برای رتبه بندی یادگیری ماشین در نظر گرفته شد که اکثر آنها از روش نزول گرادیان استفاده می کنند. در کارهای در نظر گرفته شده، ML به بهینه سازی معیارهای کیفیت جستجو (SEQ) کاهش می یابد، اما تنها معیارهایی که توسط توابع پیوسته نمایش داده می شوند، استفاده می شوند. این محدودیت اغلب منجر به این واقعیت می شود که در نتیجه بهینه سازی، تابع رتبه بندی برای بسیاری از شاخص های مهم پذیرفته شده (DCG، nDCG، رتبه میانگین متقابل درجه بندی شده، و غیره)، که توابع گسسته هستند، امتیازات پایین تری دارد. این مقاله استفاده از الگوریتم‌های ژنتیک (GA) را در آموزش رتبه‌بندی برای به حداقل رساندن تابع ضرر هوبر با استفاده از ارزیابی‌های متخصص مربوط به عنوان مقادیر مرجع پیشنهاد می‌کند. رویکردی به ML مبتنی بر بهینه‌سازی معیارهای گسسته کیفیت بازیابی اطلاعات نیز پیشنهاد شد.

2. بیان مسئله رتبه بندی یادگیری ماشین. در اکثر سیستم های بازیابی اطلاعات مدرن، تابع رتبه بندی بر اساس n تابع رتبه بندی ساده (PRF) ساخته می شود و می تواند به صورت زیر نوشته شود:

که در آن SRF ¡مین تابع رتبه بندی ساده برای سند d و query q است، WCi ضریب وزنی ¡امین تابع رتبه بندی ساده است، n تعداد PRF ها در سیستم رتبه بندی است.

در دوره یادگیری ماشین برای رتبه بندی، مجموعه ای از اسناد جستجوی B و پرس و جوهای O از مجموعه آزمایشی LBTOA استفاده شد. برای تمام درخواست‌های deO، یک جفت با هر سند deD تشکیل می‌شود. برای هر یک از این جفت ها، IRS مقادیر مرتبطی را که برای رتبه بندی نتایج جستجو استفاده می شود، تعیین می کند. برای ارزیابی کیفیت رتبه‌بندی، سیستم به مقادیر مرتبط E برای هر جفت سند-پرسمان ^، e) نیاز دارد. برای این اهداف، از ارزیابی های تخصصی مربوط استفاده می شود.

برای مطالعه، ما از یک ISS استفاده کردیم که در آن رتبه‌بندی بر اساس N = 5 توابع رتبه‌بندی ساده SRFi (WC) lг = 1, N انجام می‌شود که یک معیار بهینه برداری را تشکیل می‌دهند:

که در آن WCе (WC) بردار پارامترهای متغیر است. (ШС)، (ЯБ) به ترتیب فضاهای پارامترها و معیارهای برداری هستند.

استفاده از الگوریتم‌های ژنتیک برای رتبه‌بندی ML امکان به حداکثر رساندن معیارهای کیفیت گسسته مانند nDCG را فراهم می‌کند. معیار nDCG برای رتبه بندی اسناد در موتور جستجو مطابق با عبارت زیر تعیین می شود:

DCG @ n = X 2 ---

RF (q، d) = X WC. ■ SRF.، I = 1 1 1

که در آن درجه (p) میانگین امتیاز مربوط به مدرکی است که کارشناسان در موقعیت p در لیست نتایج، gradee داده اند. 1 / log2 (2 + p) ضریب بسته به موقعیت سند است (اسناد اول وزن بیشتری دارند).

سپس نسخه نرمال شده NDCG به صورت نوشته می شود

N000 @ n = RSD @ n / g،

که r ضریب نرمال سازی است که برابر با حداکثر مقدار ممکن 0С است [ایمیل محافظت شده] n برای یک پرس و جو داده شده (یعنی برابر با OOO از رتبه بندی ایده آل).

بنابراین، به منظور بهینه سازی (به حداکثر رساندن) متریک OSS، تابع هدف (NM) به شکل زیر نوشته می شود.

3. معیارهای کیفیت رتبه بندی نتایج جستجو. هنگام رتبه بندی اسناد در نتایج جستجو، معیارهای کیفیت به عنوان معیار عمل می کنند. از فهرست معیارهای پذیرفته شده عمومی برای ارزیابی کیفیت سیستم های بازیابی اطلاعات، سه معیار اصلی انتخاب شده اند که دقت، ارتباط و کامل بودن بازیابی اطلاعات را ارزیابی می کنند.

1. ملاک صحت بازیابی اطلاعات

در جایی که a تعداد اسناد مربوطه یافت شده است، b تعداد اسنادی است که به اشتباه مرتبط در نظر گرفته شده اند.

2. معیار Bpref که ارتباط بازیابی اطلاعات را ارزیابی می کند، برای پردازش یک کار با اسناد مربوط به R استفاده می شود و با فرمول محاسبه می شود.

Bpref = - ^ (1 - غیر پاسخ ¡قبل از (r) / R). (4)

در اینجا r یک سند مرتبط شناخته شده را نشان می دهد و NonRelBefore (r) - تعداد اسناد نامربوط شناخته شده با رتبه بالاتر از r (فقط اولین R از اسناد نامربوط تخمین زده شده از اجرا در محاسبه در نظر گرفته می شود).

3. معیار کامل بودن نتایج جستجو

r = a / (a + c)،

که در آن a تعداد اسناد مربوطه پیدا شده است، c تعداد اسناد مرتبط یافت نشده است.

4. مجموعه های تست. در یک مشکل یادگیری ماشینی، رتبه بندی به مجموعه ای از اسناد و پرس و جوها با امتیازهای مربوطه که توسط متخصصان تعیین می شود، نیاز دارد. این داده ها برای یادگیری ماشینی تابع رتبه بندی و همچنین برای ارزیابی کیفیت استفاده می شود.

رتبه بندی نتایج جستجو توسط سیستم در فرآیند ML، مجموعه های تست به عنوان یک مجموعه آموزشی مورد استفاده قرار می گیرند و بنابراین، تأثیر قابل توجهی بر نتایج دارند. برای تحقیق از مجموعه آزمایشی اسناد و درخواست‌های LETOR استفاده شد. این مجموعه برای تحقیقات بازیابی اطلاعات توسط Microsoft Research استفاده می شود. جدول 1 ویژگی های مجموعه های تست LETOR را نشان می دهد.

5. الگوریتم ژنتیک اصلاح شده. برای استفاده از الگوریتم های ژنتیک در رتبه بندی یادگیری ماشینی، مسئله باید به گونه ای فرموله شود که راه حل به صورت یک بردار (ژنوتیپ) کدگذاری شود، جایی که هر ژن می تواند بیت، عدد یا شی دیگری باشد. در این مورد، ژنوتیپ با بردار وزن برای عوامل رتبه بندی مربوطه نشان داده می شود. شرط توقف اجرای الگوریتم ژنتیک، یافتن راه‌حل بهینه، تمام شدن تعداد نسل‌ها یا زمان در نظر گرفته شده برای تکامل است.

لازم به ذکر است که GAها در جستجوی منطقه اکستروم جهانی بیشترین تأثیر را دارند، اما در مواقعی که نیاز به یافتن حداقل محلی در این منطقه باشد، می توانند به کندی کار کنند. راه پیشنهادی برای جلوگیری از این اشکال، ایجاد یک الگوریتم ژنتیک اصلاح‌شده (MGA) است که پس از یافتن منطقه بهینه جهانی با استفاده از GA اولیه، به یک الگوریتم بهینه‌سازی محلی (سرعت بالا) تغییر مکان می‌دهد. MGA پیشنهادی یک روش ترکیبی مبتنی بر GA کلاسیک و روش نلدر - مید (الگوریتم ساده) است. روش نلدر - مید، یک الگوریتم بهینه‌سازی غیرخطی پرکاربرد، یک روش عددی برای یافتن حداقل یک تابع هدف در یک فضای چند بعدی است. الگوریتم ترکیبی MGA پیشنهادی در این مقاله پس از برآورده شدن شرایط توقف GA، به روش نلدر - مید سوئیچ می‌کند. بلوک دیاگرام الگوریتم MGA در شکل نشان داده شده است. یکی

هنگام انجام تحقیق، محدودیتی در تعداد محاسبات تابع هدف (Nrf = 16000) در هنگام جستجوی منطقه اکسترموم جهانی و شرط تغییر به یک الگوریتم بهینه‌سازی محلی بر اساس روش نلدر - مید پذیرفته شد (پس از الگوریتم ژنتیک پایه 75 درصد از عملیات Nrf را انجام داده است.

6. نتایج. در نتیجه تحقیقات انجام شده با استفاده از الگوریتم یادگیری ماشین

میز 1

تعداد اسناد و پرس و جو در مجموعه های آزمون

نام مجموعه آزمایشی نام زیرسیستم تعداد درخواست ها تعداد اسناد

LETOR 4.0 MQ2007 1692 69623

LETOR 4.0 MQ2008 784 15211

LETOR 3.0 OHSUMED 106 16140

LETOR 3.0 Gov03td 50 49058

LETOR 3.0 Gov03np 150 148657

LETOR 3.0 Gov03hp 150 147606

LETOR 3.0 Gov04td 75 74146

LETOR 3.0 Gov04np 75 73834

LETOR 3.0 Gov04hp 75 74409

برنج. 1. بلوک دیاگرام الگوریتم هیبریدی MVL بر اساس الگوریتم ژنتیک و روش نلدر مید

برای رتبه بندی LTR-MGA، بردار وزن های WC * برای تابع رتبه بندی به دست می آید. علاوه بر این، بر اساس داده‌های مجموعه آزمون LETOYA، کیفیت رتبه‌بندی مورد ارزیابی قرار گرفت که معیارهای کیفیت برای آن محاسبه شد. معیار گسسته کیفیت رتبه بندی [ایمیل محافظت شده]کیفیت n سند اول پاسخ سیستم را ارزیابی می کند. معیارهای عمومی پذیرفته شده برای ارزیابی کیفیت رتبه بندی هستند [ایمیل محافظت شده], [ایمیل محافظت شده]و [ایمیل محافظت شده]با این حال، برای بررسی دقیق تر تغییرات در متریک بسته به مقادیر [ایمیل محافظت شده]برای همه n از 1 تا 10. برای مقایسه اثربخشی الگوریتم توسعه یافته با راه حل های موجود، یک تحلیل مقایسه ای با استفاده از الگوریتم های رتبه بندی ارائه شده در مجموعه های LETOIA 3.0 انجام شد. نتایج اجرای الگوریتم ها برای مجموعه های آزمایشی TB2003 و TB2004 برای متریک NDCG در شکل نشان داده شده است. 2. نتایج نشان می‌دهد که الگوریتم LTR-MGA از الگوریتم‌های آزمایشی بهتر عمل می‌کند و بالاترین مقادیر است.

هستند برای [ایمیل محافظت شده](در سطح سند اول). برتری الگوریتم LTR-MGA به این دلیل است که بر خلاف توابع رتبه بندی آزمون در نظر گرفته شده در آزمایش ها، در رویکرد پیشنهادی برای بهینه سازی تابع رتبه بندی، این متریک NDCG است که به عنوان تابع هدف استفاده می شود.

به منظور ارزیابی کیفیت رتبه بندی هنگام استفاده از الگوریتم پیشنهادی LTR-MGA، مقادیر معیارهای کیفیت برای رتبه بندی اسناد در نتایج جستجو محاسبه شد (شکل 3). مقایسه نتایج رتبه بندی (جدول 2) هنگام استفاده از تابع رتبه بندی پایه، الگوریتم پایه LTR-GA و الگوریتم اصلاح شده LTR-MGA نشان دهنده مزیت دومی است.

علاوه بر این، مطالعه زمان مورد نیاز برای رتبه بندی MO را تخمین زد. این امر برای تأیید برتری روش پیشنهادی LTR-MGA در این شاخص نسبت به رویکرد مبتنی بر استفاده از روش سنتی ضروری است.

برنج. 2. مقایسه الگوریتم های یادگیری ماشین برای رتبه بندی

توسط متریک NDCG برای مجموعه‌های آزمایشی: در سمت چپ - مجموعه داده Gov03td، در سمت راست - مجموعه داده Gov04td

برنج. 3. ارزیابی معیارهای کیفیت رتبه بندی برای فرمول رتبه بندی پایه و الگوریتم های یادگیری LTR-GA و LTR-MGA

معیارهای رتبه‌بندی کیفیت برای الگوریتم‌های مختلف رتبه‌بندی یادگیری ماشین

جدول 2

رتبه بندی معیار کیفیت تابع رتبه بندی پایه LTR-GA LTR-MGA افزایش مقدار متریک،٪

دقت 0.201 0.251 0.267 26.81

[ایمیل محافظت شده](5 سند اول) 0.149 0.31 0.339 90.47

[ایمیل محافظت شده](10 سند اول) 0.265 0.342 0.362 29.14

Bpref 0.303 0.316 0.446 51.49

کامل بودن 0.524 0.542 0.732 39.03

* بهترین مقادیر برای متریک مربوطه با رنگ خاکستری مشخص شده است

الگوریتم ژنتیک پیاز (LTYA-OL). نتایج مقایسه زمان صرف شده برای اجرای الگوریتم های LTY-OL و LTY-MOL در جدول نشان داده شده است. 3.

7. نتیجه گیری. بنابراین، مطالعات انجام شده نشان داده است که هنگام استفاده از رویکرد پیشنهادی، مقادیر معیارهای رتبه بندی در نظر گرفته شده در ISS افزایش می یابد (به طور متوسط 19.55٪ در مقایسه با الگوریتم LTL-OL). این امر تأیید می کند که LITA-MOL به درستی کار می کند و به طور قابل توجهی عملکرد رتبه بندی را بهبود می بخشد، به عبارت دیگر، مشکل بهینه سازی را با موفقیت حل می کند. با استفاده از یک الگوریتم اصلاح شده

با توجه به استفاده از روش بهینه سازی محلی و محدودیت های معرفی شده در تعداد محاسبات تابع هدف، زمان یادگیری ماشین کاهش یافته است (به طور متوسط 17.71٪ در مقایسه با استفاده از الگوریتم ژنتیک سنتی LTIAOL).

الگوریتم یادگیری ماشین رتبه‌بندی توسعه‌یافته ML-MOL را می‌توان در ISS استفاده کرد که از مدل رتبه‌بندی مبتنی بر ترکیبی از توابع رتبه‌بندی ساده استفاده می‌کند. با این حال، باید برخی از محدودیت‌ها را در کاربرد رویکرد پیشنهادی در نظر گرفت. مستقر

تخمین زمان اجرای رتبه بندی یادگیری ماشین بسته به حجم نمونه آموزشی

جدول 3

اندازه مجموعه سند متنی

زمان تحویل LTR-GA

زمان اجرا LTR-MGA

کاهش زمان اجرا، %

منظور داشتن

* بهترین مقادیر برای اندازه مجموعه آزمایشی مربوطه با رنگ خاکستری برجسته شده است

از نتایج به‌دست‌آمده، مشخص شد که پس از ML، بیشترین افزایش در معیار کیفیت رتبه‌بندی مشاهده می‌شود که مقدار آن به عنوان تابع هدف در نظر گرفته شد. در عین حال، بقیه معیارها ممکن است بهبود قابل توجهی نداشته باشند و در برخی موارد حتی مقادیر آنها را بدتر کنند. به عنوان یکی از رویکردهای ممکن برای از بین بردن این کمبود، حل مسئله بهینه‌سازی به عنوان یک مسئله چند معیاره پیشنهاد می‌شود: به‌جای بهینه‌سازی یکی، چندین معیار رتبه‌بندی اصلی نتایج جستجو را به طور یکنواخت بهبود بخشید. علاوه بر این، در مطالعات بیشتر، برنامه ریزی شده است تا روشی برای ساخت یک تابع هدف بر اساس یک پیچیدگی خطی معیارهای کیفیت رتبه بندی اصلی برای بهبود فرآیند بازیابی اطلاعات ایجاد شود.

فهرست کتابشناختی

1. کراوات یان لیو. آموزش رتبه بندی برای بازیابی اطلاعات // مبانی و روندهای مجله در بازیابی اطلاعات. جلد 3، شماره 3. مارس 2009. ص 225-331.

2. کریستوفر جی سی برگز، تال شاکد، ارین رنشاو. آموزش رتبه بندی با استفاده از Gradient Descent // Proceeding ICML "05 مجموعه مقالات بیست و دومین کنفرانس بین المللی یادگیری ماشین. 2005. ص 89-96.

3. Semenikhin، SV بررسی رویکردهای یادگیری ماشین برای رتبه‌بندی اسناد توسط یک سیستم جستجو بر اساس الگوریتم‌های ژنتیک / SV Semenikhin // روسیه جوان: فناوری‌های پیشرفته در صنعت. - 2013. - شماره 2. - ص 82 - 85.

4. بهینه سازی چند معیاره بر اساس الگوریتم های ژنتیک در سنتز سیستم های کنترل: تک نگاری. / L. A. Denisova. - Omsk: Publishing House of OmSTU, 2014 .-- 170 p. - شابک 978-5-8149-1822-2.

5. Denisova، L. A. اتوماسیون سنتز پارامتری سیستم کنترل با استفاده از الگوریتم ژنتیک / L. A. Denisova، V. A. Meshcheryakov // اتوماسیون در صنعت. - 2012. - شماره 7. - ص 34 - 38.

6. Huber, Peter J. Robust Estimation of a Location Parameter // Annals of Statistics. - 1964. - شماره 53. - ص 73-101.

7. Semenikhin، S. V. اتوماسیون بازیابی اطلاعات بر اساس بهینه سازی چند معیاره و الگوریتم های ژنتیک / S. V. Semenikhin، L. A. Denisova // دینامیک سیستم ها، مکانیسم ها و ماشین ها. - 2014. - شماره 3. - ص 224 - 227.

8. Tie-Yan Liu، Jun Xu، Tao Qin، Wenying Xiong و Hang Li. LETOR: مجموعه داده های معیار برای تحقیق در مورد یادگیری رتبه بندی برای بازیابی اطلاعات // کارگاه آموزشی SIGIR 2007 در مورد یادگیری رتبه بندی برای بازیابی اطلاعات. - 2007 .-- S. 3-10.

9. Ageev، MS معیارهای رسمی RMIP "2004 / MS Ageev، IE Kuralenok // دومین سمینار روسی در مورد ارزیابی روش های بازیابی اطلاعات (ROMIP 2004)، پوشچینو، 2004: tr.؛ Ed. S. Nekrest'yanova. - سن پترزبورگ: مؤسسه تحقیقاتی شیمی، دانشگاه دولتی سن پترزبورگ - ص 142-150.

10. J. A. Nelder، R. Mead، روش سیمپلکس برای کمینه سازی تابع، مجله کامپیوتر 7 (1965). 308-313.

Svyatoslav Vitalievich SEMENIKHIN، دانشجوی کارشناسی ارشد گروه پردازش خودکار اطلاعات و سیستم های کنترل. آدرس مکاتبه: [ایمیل محافظت شده]دنیسوا لیودمیلا آلبرتوونا، دکترای علوم فنی، دانشیار گروه پردازش خودکار اطلاعات و سیستم های کنترل. آدرس مکاتبه: [ایمیل محافظت شده]

این فصل روش‌های رایجی را برای ارزیابی کیفیت مدل طبقه‌بندی ارائه می‌کند که از جمله در کارهای دیگر در این زمینه استفاده می‌شود. توصیف و توجیه آنها از معیارهای مورد استفاده برای این ارزیابی ارائه شده است.

معیارهای ارزیابی کیفیت

دقت کامل

این متریک یکی از ساده ترین و در عین حال جهانی ترین معیارها برای ارزیابی عملکرد الگوریتم های طبقه بندی است. مقدار این ضریب به عنوان نسبت اشیاء به درستی طبقه بندی شده از تعداد کل اشیاء در نمونه محاسبه می شود. این معیار به دلیل سادگی و قابلیت گسترش به هر تعداد کلاس محبوب است. عیب اصلی این معیار این است که وزن یکسانی را به همه اسناد اختصاص می دهد، که ممکن است در مورد جابجایی شدید اسناد در مجموعه آموزشی به سمت یک یا چند کلاس نادرست باشد. این معیار می تواند ارزش بالایی داشته باشد، اما طبقه بندی کننده در همان کلاس می تواند کیفیت بسیار پایین کار را نشان دهد. در عین حال، متریک به هیچ وجه این را نشان نمی دهد.

دقت، کامل بودن و F-Measure

معیارهایی مانند دقت و یادآوری برای اولین بار به طور گسترده در ارزیابی عملکرد سیستم های حل مشکلات بازیابی اطلاعات استفاده شد. دقت سیستم در یک کلاس نسبت اشیایی است که واقعاً به یک کلاس خاص تعلق دارند نسبت به تمام اشیاء اختصاص داده شده توسط سیستم به این کلاس. کامل بودن به عنوان نسبت اشیاء یافت شده توسط طبقه بندی کننده متعلق به یک کلاس نسبت به تمام اشیاء این کلاس بیان می شود. جدول 4 یک جدول اقتضایی از یک کلاس جداگانه است که در آن TP (مثبت واقعی) یک تصمیم مثبت درست، TN (منفی واقعی) یک تصمیم منفی درست، FP (مثبت نادرست) یک تصمیم مثبت کاذب و FN است. (منفی کاذب) یک تصمیم نادرست است -تصمیم منفی.

جدول 1 - جدول احتمالی یک کلاس از اشیاء

بنابراین، دقت و کامل بودن به صورت زیر محاسبه می شود:

F-measure اطلاعات مربوط به دقت و کامل بودن الگوریتم ارزیابی شده را ترکیب می کند. به عنوان میانگین هارمونیک شاخص های دقت و کامل محاسبه می شود:

با توجه به این واقعیت که F-measure به طور جداگانه برای هر کلاس محاسبه می شود، استفاده از آن برای جستجو و تجزیه و تحلیل خطاهای خاص الگوریتم، برای ارزیابی یک طبقه بندی با چندین کلاس راحت است. علاوه بر این، در مورد تعداد زیاد کلاس ها، مشخصه ای مورد نیاز است که کامل بودن و دقت را برای همه کلاس ها جمع کند و رفتار کلی سیستم را مشخص کند. در این کار از مقادیر تجمیع شده زیر برای این منظور استفاده شده است: دقت ماکرو که به عنوان میانگین حسابی دقت برای همه کلاس ها محاسبه می شود، فراخوان کلان که به عنوان میانگین حسابی کامل بودن برای همه کلاس ها محاسبه می شود. و ماکرو F- اندازه گیری (Macro F-score) که میانگین هارمونیک بین آنهاست.

اعتبار سنجی متقابل

اعتبار سنجی متقاطع یکی از رایج ترین روش ها برای انجام آزمایش کامل و ارزیابی عملکرد الگوریتم های مختلف یادگیری ماشین است. برای یک نمونه مستقل، این روش به فرد اجازه می دهد تا یک تخمین بی طرفانه از احتمال خطا، برخلاف میانگین خطا در نمونه آموزش دیده، به دست آورد، که می تواند تخمین مغرضانه ای از احتمال خطا به دلیل برازش بیش از حد الگوریتم باشد. مزیت دیگر این روش، توانایی به دست آوردن تخمینی از احتمال خطای الگوریتم، در غیاب یک نمونه کنترلی طراحی شده ویژه برای آزمایش است.

اجازه دهید فرض کنیم که مجموعه‌ای از توصیف ویژگی‌های اشیاء است، که در آن یک نمونه محدود از موارد استفاده مشخص شده است، که در آن مجموعه محدودی از کلاس‌ها وجود دارد. یک نقشه برداری مشخص شده است که یک الگوریتم را به انتخاب دلخواه از موارد استفاده اختصاص می دهد. سپس کیفیت الگوریتم برای یک نمونه دلخواه از سوابق با استفاده از تابع کیفیت برآورد می شود:

جایی که مقداری تابع غیر منفی وجود دارد که مقدار خطای الگوریتم را با یک برچسب کلاس صحیح برمی گرداند.