You can edit almost every page by Creating an account. Otherwise, see the FAQ.

Noisy text analytics

از EverybodyWiki Bios & Wiki
پرش به:ناوبری، جستجو

این مقاله در حال ترجمه از ویکی انگلیسی است

لطفا حذف نشود.

تکنیک هایی برای تجزیه و تحلیل متن پر سر و صدا[ویرایش]

از دست دادن علائم نگارشی و استفاده از کلمات غیر استاندارد اغلب می‌تواند مانع از ابزارهای استاندارد پردازش زبان طبیعی مانند برچسب‌گذاری بخشی از گفتار و تجزیه شود. تکنیک‌هایی هم برای یادگیری از داده‌های پر سر و صدا و هم برای پردازش داده‌های پر سر و صدا در حال حاضر در حال توسعه هستند.

منبع احتمالی متن پر سر و صدا[ویرایش]

  • وب جهانی : متن ضعیف در صفحات وب، چت آنلاین ، وبلاگ ها ، ویکی ها، انجمن های گفتگو ، گروه های خبری یافت می شود. بیشتر این داده ها ساختاری ندارند و سبک نگارش با مثلاً مقالات خبری خوش نوشته بسیار متفاوت است. تجزیه و تحلیل برای داده های وب مهم است زیرا آنها منابعی برای تجزیه و تحلیل buzz بازار، بررسی بازار، تخمین روند و غیره هستند. همچنین به دلیل حجم زیاد داده‌ها، یافتن روش‌های کارآمد برای استخراج ، طبقه‌بندی ، جمع‌بندی خودکار و تحلیل این داده‌ها ضروری است.
  • مراکز تماس : این یک اصطلاح کلی برای میزهای کمک، خطوط اطلاعات و مراکز خدمات مشتری است که در حوزه‌هایی از فروش کامپیوتر و پشتیبانی گرفته تا تلفن همراه و پوشاک فعالیت می‌کنند. به طور متوسط یک فرد در جهان توسعه یافته حداقل یک بار در هفته با یک نماینده مرکز تماس در ارتباط است. یک نماینده معمولی مرکز تماس روزانه بیش از صد تماس را انجام می دهد. آنها در حالت های مختلف مانند صدا، چت آنلاین و ایمیل کار می کنند. صنعت مرکز تماس، گیگابایت داده در قالب ایمیل ، گزارش چت، رونویسی مکالمه صوتی، بازخورد مشتری و غیره تولید می کند. بخش عمده ای از داده های مرکز تماس، مکالمات صوتی است. رونویسی این موارد با استفاده از تشخیص خودکار گفتار پیشرفته منجر به متنی با نرخ خطای کلمه 30-40٪ می شود. علاوه بر این، حتی حالت‌های مکتوب ارتباط مانند چت آنلاین بین مشتریان و نمایندگان و حتی تعاملات از طریق ایمیل نیز پر سر و صدا هستند. تجزیه و تحلیل داده‌های مرکز تماس برای مدیریت ارتباط با مشتری، تجزیه و تحلیل رضایت مشتری، مدل‌سازی تماس، پروفایل مشتری، نمایه‌سازی نماینده و غیره ضروری است و برای مدیریت متن ضعیف به تکنیک‌های پیچیده نیاز دارد.
  • اسناد چاپی: بسیاری از کتابخانه‌ها، سازمان‌های دولتی و سازمان‌های دفاع ملی دارای مخازن وسیعی از اسناد چاپی هستند. برای بازیابی و پردازش محتوا از چنین اسنادی، باید با استفاده از تشخیص کاراکتر نوری پردازش شوند. علاوه بر متن چاپ شده، این اسناد ممکن است حاوی حاشیه نویسی دست نویس نیز باشند. متن OCRed بسته به اندازه فونت، کیفیت چاپ و غیره می تواند بسیار نویز باشد. این می تواند از 2-3٪ نرخ خطای کلمه تا 50-60٪ نرخ خطای کلمه متغیر باشد . رمزگشایی یادداشت‌های دست‌نویس می‌تواند به‌ویژه سخت باشد، و نرخ خطا در حضور آنها می‌تواند بسیار بالا باشد.
  • سرویس پیام کوتاه (SMS): استفاده از زبان در گفتمان‌های رایانه‌ای، مانند چت، ایمیل و متن پیام کوتاه، به طور قابل توجهی با فرم استاندارد زبان متفاوت است. تمایل به طول پیام کوتاه‌تر که تایپ سریع‌تر و نیاز به وضوح معنایی را تسهیل می‌کند، ساختار این فرم غیراستاندارد را شکل می‌دهد که به عنوان زبان پیامک شناخته می‌شود.

همچنین ببینید[ویرایش]

منابع[ویرایش]


This article "Noisy text analytics" is from Wikipedia. The list of its authors can be seen in its historical and/or the page Edithistory:Noisy text analytics. Articles copied from Draft Namespace on Wikipedia could be seen on the Draft Namespace of Wikipedia and not main one.



Read or create/edit this page in another language[ویرایش]