شناسایی موجودیتهای نامدار
"این مقاله در حال ترجمه از ویکی انگلیسی است. لطفا حذف نشود."
شناسایی موجودیتهای نامدار (NER) (همچنین شناختهشده تحت عنوان (نامدار) موجودیت، گروهبندی موجودیت، و استخراج موجودیت) یک زیر وظیفه از استخراج اطلاعات است که سعی در یافتن و دستهبندی موجودیتهای نامدار اشارهشده در متن بدون ساختار به دستهبندیهای پیشتعریف شده مانند نام افراد، سازمانها، مکانها، کدهای پزشکی، اعلام زمان، مقادیر کمیتی، ارزشهای پولی، درصدها، و غیره دارد.
بیشتر تحقیقات درباره سیستمهای NER/NEE به صورت ساختار یافته به عنوان گرفتن یک بلوک متن بدون حاشیه، مانند این نمونه:
- جیم 300 سهم شرکت ایسمه شرکت در سال 2006 را خرید.
و تولید کردن یک بلوک متن حاشیه دار که نامهای موجودیت را برجسته میکند:
- [جیم]شخص 300 سهم از [ایسمه شرکت]سازمان در [2006]زمان.
در این مثال، یک نام شخص متشکل از یک توکن، نام شرکتی با دو توکن و یک عبارت زمانی تشخیص داده و دستهبندی شدهاند.
سیستمهای NER با روز روزگار بهرهور برای زبان انگلیسی عملکرد نزدیک به انسانی ارائه میدهند. به عنوان مثال، بهترین سیستم ورودی MUC-7 93.39% از امتیاز F-measure را کسب کرد در حالی که ارزیابهای انسانی 97.60% و 96.95% را کسب کردند.
پلتفرمهای شناسایی موجودیتهای نامدار[ویرایش]
پلتفرمهای قابل توجه NER شامل موارد زیر میشوند:
- GATE از NER در بسیاری از زبانها و دامنهها جهتگیری کرده و به سادگی از طریق رابط گرافیکی و یک API جاوا قابل استفاده است.
- OpenNLP شامل شناسایی موجودیتهای نامدار بر اساس قوانین و آمار است.
- SpaCy مدلهای آماری سریع NER را ویژگی میکند و همچنین یک نمایشگر متنی موجودیت نامدار منبعباز.
- مدل تبدیلکننده ویژگیهای دستهبندی توکن با استفاده از مدلهای یادگیری عمیق را نشان میدهد.
تعریف مسئله[ویرایش]
در عبارت موجودیت نامدار، واژه نامدار وظیفه را به آن موجودیتها محدود میکند که یک یا چند رشته، مانند کلمات یا عبارات، نسبتاً برای یک مرجع ایستادهاند. این ارتباط وثابت با معیارهای دقیق، همانند آنچه که توسط Kripke تعریف شدهاست، ارتباطی نزدیک دارد، هرچند در عمل NER با نامها و مراجعی سرشار از نامها که به اصطلاح فیلسوفی "ثابت" هستند، سر و کار دارد. به عنوان مثال، شرکت خودروسازی ایجادشده توسط هنری فورد در سال ۱۹۰۳ ممکن است به عنوان فورد یا شرکت خودروسازی فورد اشاره شود، هرچند "فورد" همچنین ممکن است به افراد دیگری هم اشاره کند (مانند فورد). اشارات ثابت شامل نامهای صحیح و همچنین اصطلاحاتی برای برخی از گونهها و مواد زیستشناسی مشخص شدهاند، اما ضمایر (مانند "آن"؛ برای مشاهده تعیین اشارهی هممرجع)، توضیحاتی که یک مرجع را بر اساس خصوصیات آن اشاره کرده است (برای مشاهده فعل بهدیکتو و آبری)، و نامهای برای انواع چیزها نسبت به افراد (به عنوان مثال "بانک") از شمارهدارها مستثنا هستند.
شناسایی کامل موجودیتهای نامدار به طور معمول، مفهومی و شاید هم در اجراها، به عنوان دو مسئله متمایز: شناسایی نامها و دستهبندی نامها بر اساس نوع موجودیتی که به آنها ارجاع داده میشود (برای مثال، شخص، سازمان، یا مکان). مرحله اول به طور معمول به یک مسئله تقسیمبندی ساده سفارشی میدهد: نامها به عنوان محدودههای متمایل توکن تعریف میشوند، بدون تودهبندی، به طوری که "بانک امریکا" یک نام منفرد است، صرف نظر از اینکه درون این نام، زیررشته "امریکا" خود یک نام است. این مسئله تقسیمبندی شبیه به اجزاء است. مرحله دوم نیازمند انتخاب یک انتولوژی است که به وسیله آن دستهبندی دستههای چیزها عضو را سازماندهی کند.
عبارات زمانی و برخی از عبارات عددی (مانند پول، درصدها، و غیره) نیز ممکن است در زمینه وظیفهی NER به عنوان موجودیتهای نامدار در نظر گرفته شوند. در حالی که برخی از نمونههای این انواع مثالهای خوبی از اشارهدهندههای ثابت هستند (مانند سال ۲۰۰۱)، همچنین بسیاری از آنها اعتبار ندارند (به عنوان مثال، تعطیلات خودرا در "ژوئن" سپری میکنم). در صورت اول، سال ۲۰۰۱ به سال ۲۰۰۱ از تقویم گریگوری اشاره دارد. در صورت دوم، ممکن است برای ماه ژوئن از یک سال نامعین استفاده شود (ژوئنهای گذشته، ژوئن بعدی، هر ژوئن، و غیره). استدلال میشود که تعریف موجودیت نامدار در چنین مواردی به دلایل عملی به یک معنی گستردهتر میرسد. تعریف واژه موجودیتنامدار از این رو به صورت دقیق و اغلب باید در زمینهای که استفاده میشود توضیح دادهشود.
ارزیابی رسمی[ویرایش]
وقتی معیارهای ارزیابی NER مورد بررسی قرار میگیرند، اندازهگیریهای معمول به نام دقت، بازخوانی و امتیاز F1 تعریف شدهاند. اما چندین مسئله باقی میماند در اینکه چگونه ارزشهای آنها محاسبه شود.
این اندازهگیریهای آماری برای موارد واضح پیدا کردن یا از دست دادن یک موجودیت واقعی دقیقاً خوب کار میکنند؛ و برای پیدا کردن یک موجودیت غیر واقعی هم کارآمدند. با این حال، NER میتواند در بسیاری از حالتهای دیگر شکست خورد، بسیاری از آنها آنقدر که "جزئیاً صحیح" هستند، و نباید به عنوان یک موفقیت یا شکست کامل شمرده شوند. به عنوان مثال، شناسایی یک واقعیت واقعی، اما:
- کمتر از توکنهای مورد نظر دارد (به عنوان مثال، گم شدن آخرین توکن «جان اسمیت، دکتر»)
- بیشتر از توکنهای مورد نظر دارد (به عنوان مثال، اضافه کردن اولین کلمه «دانشگاه مریلند»)
- تقسیم موجودیتهای مجاور را به صورت مختلف انجام دهد (به عنوان مثال، با دیدگاه 2 در مقابل 3 موجودیت «اسمیت، جونز، رابینسون» را در نظر بگیرد)
- نوعی اشتباه کاملاً اختصاص دهد (به عنوان مثال، یک اسم شخصی را یک سازمان فراخوانی کند)
- نوع مرتبط اما ناقص را تعیین کند (به عنوان مثال، «ماده» در مقابل «دارو» یا «مدرسه» در مقابل «سازمان»)
شناسایی صحیح یک موجودیت، زمانی که کاربر انتظار داشت یک موجودیت با دامنه کوچکتر یا بزرگتر را ببیند (به عنوان مثال، شناسایی «جیمز مدیسون» به عنوان یک اسم شخصی، زمانی که قسمتی از «دانشگاه جیمز مدیسون» است). منظومههای NER برخی از آنها تحمیل میکنند که هیچگاه موجودیتها نمیتوانند همپوشانی داشته باشند یا در کنار هم قرار بگیرند، که این به این معناست که در برخی موارد، باید تصمیمات مشخص یا وظیفهای گرفت.
یک روش بسیار ساده برای اندازهگیری دقت فقط شمارش آن است که چه مقدار از تمام توکنها در متن به درستی یا به اشتباه به عنوان قسمتی از ارجاعهای موجودیت شناخته شدهاند (یا به عنوان موجودیتهای نوع صحیح). این حداقل دارای دو مشکل است: اولاً، بیشتر توکنها در متن واقعی قسمتی از نام موجودیت نیستند، بنابراین دقت پایه (همیشه پیشبینی "نه موجودیت") بسیار بالا است، معمولاً بیشتر از 90٪؛ و ثانیاً، اشتباه در پیشبینی عرض کامل نام یک موجودیت به درستی مجازات نمیشود (به عنوان مثال، پیدا کردن تنها نام اول فرد زمانی که نام خانوادگی او دنبال میشود ممکن است برابر با ½ دقت در نظر گرفته شود).
در کنفرانسهای علمی همچون CoNLL، نوعی از امتیاز F1 به شکل زیر تعریف شدهاست:[9]
- دقت تعداد دامنههای نام پیشبینیشده موجودیت که دقیقاً با دامنهها در دادههای ارزیابی استاندارد طلا همخطاب است تا دامنهها، ارزیابی شده. یعنی هنگامی که [Person Hans] [Person Blick] پیشبینی شده است اما [Person Hans Blick] لازم بود، دقت برای نام پیشبینی شده صفر است. دقت سپس بر روی تمام نامهای موجودیت پیشبینی شده میانگین گیری میشود.
- بازخوانی همچنین تعداد نامها در استاندارد طلا است که در همان محل در پیشبینیها ظاهر میشوند.
- امتیاز F1 میانگین هارمونیک این دو است.
از تعریف فوق نتیجه میگیرد که هر پیشبینی که یک توکن را از دست بدهد، شامل یک توکن سِرابی شود، یا نوع اشتباهی داشته باشد، یک خطای سخت است و مثبت برای هیچکدام از دقت یا بازخوانی نمیتواند داشته باشد. بنابراین این اندازهگیری میتواند گفت که پیشبینیهای زیادی نزدیک به صحیح هستند و ممکن است برای یک هدف خاص کافی باشد. به عنوان مثال، یک سیستم ممکن است همیشه عناوین مانند "خانم" یا "دکتر" را حذف کند، اما با یک سیستم یا دادههای واقعی که انتظار دارد عنوانها اضافه شوند، مقایسه گردد. در این صورت، هر نامی به عنوان یک خطا در نظر گرفته میشود. به خاطر چنین مسائلی، اهمیت دارد واقعاً به نوع اشتباهات نگاه کرده و تصمیم بگیرید که چقدر مهم هستند با توجه به اهداف و نیازهای خود.
مدلهای ارزیابی بر اساس تطابق توکن به توکن پیشنهاد شدهاند. اینگونه مدلها ممکن است امتیاز جزئی را به خاطر تطابقهای همپوشانی (مانند استفاده از معیار تقاطع بر روی اتحاد) بدهند. آنها امکان ارزیابی و مقایسه دقیقتری از سیستمهای استخراج را فراهم میکنند.
This article "شناسایی موجودیتهای نامدار" is from Wikipedia. The list of its authors can be seen in its historical and/or the page Edithistory:شناسایی موجودیتهای نامدار. Articles copied from Draft Namespace on Wikipedia could be seen on the Draft Namespace of Wikipedia and not main one.