Noisy text analytics
از EverybodyWiki Bios & Wiki
این مقاله در حال ترجمه از ویکی انگلیسی است
لطفا حذف نشود.
تکنیک هایی برای تجزیه و تحلیل متن پر سر و صدا[ویرایش]
از دست دادن علائم نگارشی و استفاده از کلمات غیر استاندارد اغلب میتواند مانع از ابزارهای استاندارد پردازش زبان طبیعی مانند برچسبگذاری بخشی از گفتار و تجزیه شود. تکنیکهایی هم برای یادگیری از دادههای پر سر و صدا و هم برای پردازش دادههای پر سر و صدا در حال حاضر در حال توسعه هستند.
منبع احتمالی متن پر سر و صدا[ویرایش]
- وب جهانی : متن ضعیف در صفحات وب، چت آنلاین ، وبلاگ ها ، ویکی ها، انجمن های گفتگو ، گروه های خبری یافت می شود. بیشتر این داده ها ساختاری ندارند و سبک نگارش با مثلاً مقالات خبری خوش نوشته بسیار متفاوت است. تجزیه و تحلیل برای داده های وب مهم است زیرا آنها منابعی برای تجزیه و تحلیل buzz بازار، بررسی بازار، تخمین روند و غیره هستند. همچنین به دلیل حجم زیاد دادهها، یافتن روشهای کارآمد برای استخراج ، طبقهبندی ، جمعبندی خودکار و تحلیل این دادهها ضروری است.
- مراکز تماس : این یک اصطلاح کلی برای میزهای کمک، خطوط اطلاعات و مراکز خدمات مشتری است که در حوزههایی از فروش کامپیوتر و پشتیبانی گرفته تا تلفن همراه و پوشاک فعالیت میکنند. به طور متوسط یک فرد در جهان توسعه یافته حداقل یک بار در هفته با یک نماینده مرکز تماس در ارتباط است. یک نماینده معمولی مرکز تماس روزانه بیش از صد تماس را انجام می دهد. آنها در حالت های مختلف مانند صدا، چت آنلاین و ایمیل کار می کنند. صنعت مرکز تماس، گیگابایت داده در قالب ایمیل ، گزارش چت، رونویسی مکالمه صوتی، بازخورد مشتری و غیره تولید می کند. بخش عمده ای از داده های مرکز تماس، مکالمات صوتی است. رونویسی این موارد با استفاده از تشخیص خودکار گفتار پیشرفته منجر به متنی با نرخ خطای کلمه 30-40٪ می شود. علاوه بر این، حتی حالتهای مکتوب ارتباط مانند چت آنلاین بین مشتریان و نمایندگان و حتی تعاملات از طریق ایمیل نیز پر سر و صدا هستند. تجزیه و تحلیل دادههای مرکز تماس برای مدیریت ارتباط با مشتری، تجزیه و تحلیل رضایت مشتری، مدلسازی تماس، پروفایل مشتری، نمایهسازی نماینده و غیره ضروری است و برای مدیریت متن ضعیف به تکنیکهای پیچیده نیاز دارد.
- اسناد چاپی: بسیاری از کتابخانهها، سازمانهای دولتی و سازمانهای دفاع ملی دارای مخازن وسیعی از اسناد چاپی هستند. برای بازیابی و پردازش محتوا از چنین اسنادی، باید با استفاده از تشخیص کاراکتر نوری پردازش شوند. علاوه بر متن چاپ شده، این اسناد ممکن است حاوی حاشیه نویسی دست نویس نیز باشند. متن OCRed بسته به اندازه فونت، کیفیت چاپ و غیره می تواند بسیار نویز باشد. این می تواند از 2-3٪ نرخ خطای کلمه تا 50-60٪ نرخ خطای کلمه متغیر باشد . رمزگشایی یادداشتهای دستنویس میتواند بهویژه سخت باشد، و نرخ خطا در حضور آنها میتواند بسیار بالا باشد.
- سرویس پیام کوتاه (SMS): استفاده از زبان در گفتمانهای رایانهای، مانند چت، ایمیل و متن پیام کوتاه، به طور قابل توجهی با فرم استاندارد زبان متفاوت است. تمایل به طول پیام کوتاهتر که تایپ سریعتر و نیاز به وضوح معنایی را تسهیل میکند، ساختار این فرم غیراستاندارد را شکل میدهد که به عنوان زبان پیامک شناخته میشود.
همچنین ببینید[ویرایش]
- تجزیه و تحلیل متن
- استخراج اطلاعات
- زبانشناسی محاسباتی
- پردازش زبان طبیعی
- شناسایی موجودیت نامگذاری شده
- استخراج متن
- خلاصه سازی خودکار
- طبقه بندی آماری
- کیفیت داده
منابع[ویرایش]
- "Wong, W., Liu, W. & Bennamoun, M. Enhanced Integrated Scoring for Cleaning Dirty Texts. In: IJCAI Workshop on Analytics for Noisy Unstructured Text Data (AND), 2007; Hyderabad, India.".
- "L. V. Subramaniam, S. Roy, T. A. Faruquie, S. Negi, A survey of types of text noise and techniques to handle noisy text. In: Third Workshop on Analytics for Noisy Unstructured Text Data (AND), 2009".
This article "Noisy text analytics" is from Wikipedia. The list of its authors can be seen in its historical and/or the page Edithistory:Noisy text analytics. Articles copied from Draft Namespace on Wikipedia could be seen on the Draft Namespace of Wikipedia and not main one.