You can edit almost every page by Creating an account. Otherwise, see the FAQ.

IE استخراج اطلاعات

از EverybodyWiki Bios & Wiki
پرش به:ناوبری، جستجو

خطای اسکریپتی: پودمان «AfC submission catcheck» وجود ندارد. ""استخراج اطلاعات"" ("IE") وظیفه استخراج خودکار اطلاعات ساختاریافته از بدون ساختار ویا نیمه‌ساختار یافته قابل خواندن توسط ماشین است از اسناد و سایر منابع ارائه شده به صورت الکترونیکی. در بیشتر موارد، این فعالیت مربوط به پردازش متون زبان انسانی با استفاده از پردازش زبان طبیعی (NLP) است. فعالیت‌های اخیر در چند رسانه‌ای پردازش سند مانند حاشیه‌نویسی خودکار و استخراج محتوا از تصاویر/صوتی/ویدئو/اسناد می‌تواند به عنوان استخراج اطلاعات تلقی شود.

با توجه به دشواری مساله، رویکردهای فعلی در IE بر دامنه‌های محدودی متمرکز است. یک مثال استخراج از گزارش‌های اخبار مربوط به ادغام شرکت‌ها است که با رابطه رسمی مشخص می‌شود.

(شرکت_1، شرکت_2، تاریخ)

از جمله یک خبر آنلاین مانند:

""دیروز، Foo Inc. مستقر در نیویورک، خرید Bar Corp را اعلام کرد."

هدف گسترده IE این است که امکان انجام محاسبات روی داده های بدون ساختار قبلی را فراهم کند. هدف خاص تر این است که به استدلال منطقی اجازه دهیم تا بر اساس محتوای منطقی داده های ورودی استنتاج کند. داده‌های ساخت‌یافته، داده‌هایی هستند که از لحاظ معنایی به خوبی تعریف شده‌اند از یک دامنه هدف انتخاب شده، که با توجه به دسته‌بندی و زمینه تفسیر می‌شوند.

استخراج اطلاعات بخشی از یک پازل بزرگتر است که با مشکل ابداع روش های خودکار برای مدیریت متن، فراتر از انتقال، ذخیره سازی و نمایش آن سروکار دارد. نظم و انضباط از information retrieval (IR)[۱]روش‌های خودکار، معمولاً با روش آماری، برای نمایه‌سازی مجموعه‌های اسناد بزرگ و طبقه‌بندی اسناد ایجاد کرده است. رویکرد مکمل دیگر، رویکرد پردازش زبان طبیعی (NLP) است که با در نظر گرفتن بزرگی کار، مشکل مدل‌سازی پردازش زبان انسانی را با موفقیت قابل توجهی حل کرده است. از نظر سختی و تاکید، IE با وظایف بین IR و NLP سروکار دارد. از نظر ورودی، IE وجود مجموعه‌ای از اسناد را فرض می‌کند که در آن هر سند از یک الگو پیروی می‌کند، یعنی یک یا چند موجودیت یا رویداد را به‌گونه‌ای توصیف می‌کند که شبیه به اسناد دیگر است، اما در جزئیات متفاوت است. به عنوان مثال، گروهی از مقالات شبکه خبری در مورد تروریسم آمریکای لاتین را در نظر بگیرید که هر مقاله بر اساس یک یا چند اقدام تروریستی فرض می شود. ما همچنین برای هر وظیفه IE یک الگو تعریف می کنیم، که یک (یا مجموعه ای از) فریم (های) موردی برای نگهداری اطلاعات موجود در یک سند واحد است. برای مثال تروریسم، یک الگو دارای شکاف هایی است که مربوط به عامل، قربانی، و سلاح اقدام تروریستی و تاریخ وقوع رویداد است. یک سیستم اینترنت اکسپلورر برای این مشکل برای "درک" مقاله حمله فقط به اندازه کافی برای یافتن داده های مربوط به شکاف های این الگو مورد نیاز است.

تاریخچه[ویرایش]

تاریخ IE به اواخر دهه 1970 در روزهای اولیه NLP برمی گردد [۲]یک سیستم تجاری اولیه از اواسط دهه 1980، JASPER بود که برای رویترز توسط Carnegie Group Inc با هدف ارائه real-time financial news یا اخبار مالی بی درنگ به معامله‌گران مالی ساخته شد.[۳]در آغاز در سال 1987، IE توسط یک سری از Message Understanding Conference MUC یک کنفرانس مبتنی بر رقابت است[۴] که تمرکز می کرد بر موضوعات با دامنه زیر:

  • MUC-1 (1987), MUC-2 (1989): Naval operations messages.
  • MUC-3 (1991), MUC-4 (1992): Terrorism in Latin American countries.
  • MUC-5 (1993): Joint ventures and microelectronics domain.
  • MUC-6 (1995): News articles on management changes.
  • MUC-7 (1998): Satellite launch reports.

پشتیبانی قابل توجهی از سوی آژانس پروژه های تحقیقاتی پیشرفته دفاعی ایالات متحده صورت گرفت (DARPA) کسانی که مایل بودند کارهای روزمره انجام شده توسط تحلیلگران دولتی، مانند اسکن روزنامه ها برای پیوندهای احتمالی با تروریسم را اتوماتیک کنند.

اهمیت فعلی[ویرایش]

اهمیت فعلی IE به مقدار فزاینده اطلاعات موجود به شکل بدون ساختار مربوط می شود Tim Berners-Lee مخترع world wide web اینترنت حال حاضر را به عنوان اسناد می شناسد [۵]و از آن حمایت می کند که بیشتر محتوا به صورت وب داده ها در دسترس باشد.[۶]تا زمانی که این اتفاق نیفتد، وب عمدتاً از اسناد بدون ساختار و فاقد فراداده معنایی تشکیل شده است. دانش موجود در این اسناد را می توان با تبدیل به شکل رابطه ای یا با علامت گذاری با برچسب های XML برای پردازش ماشینی در دسترس تر کرد. یک عامل هوشمند که یک اثر داده‌های خبری را وارسی می‌کند، به IE نیاز دارد تا داده‌های بدون ساختار را به چیزی تبدیل کند که بتوان با آن استدلال کرد. یک کاربرد معمولی IE اسکن مجموعه ای از اسناد نوشته شده به یک زبان طبیعی و پر کردن یک پایگاه داده با اطلاعات استخراج شده است.[۷]

وظایف و وظایف فرعی[ویرایش]

استفاده از استخراج اطلاعات در متن با مشکل ساده سازی متن به منظور ایجاد نمای ساختاری از اطلاعات موجود در متن آزاد مرتبط است. هدف کلی ایجاد متنی با قابلیت خواندن ماشینی آسان تر برای پردازش جملات است. وظایف و وظایف فرعی معمولی IE عبارتند از:

  • پر کردن الگو: استخراج مجموعه ثابتی از فیلدها از یک سند، به عنوان مثال. عاملان، قربانیان، زمان و غیره را از یک مقاله روزنامه در مورد یک حمله تروریستی استخراج کنید.
    • استخراج رویداد: با توجه به یک سند ورودی، خروجی صفر یا بیشتر الگوهای رویداد. به عنوان مثال، یک مقاله روزنامه ممکن است حملات تروریستی متعددی را توصیف کند.
  • پایه دانش جمعیت: یک پایگاه داده از حقایق را با مجموعه ای از اسناد پر کنید. به طور معمول پایگاه داده به شکل سه گانه است (موجود 1، رابطه، موجودیت 2)، به عنوان مثال. (باراک اوباما، همسر، میشل اوباما)
    • تشخیص نهاد نامگذاری شده: شناسایی نام های موجودیت شناخته شده (برای افراد و سازمان ها)، نام مکان ها، عبارات زمانی، و انواع خاصی از عبارات عددی، با استفاده از دانش موجود از دامنه یا اطلاعات استخراج شده از جملات دیگر.[۸]به طور معمول، وظیفه شناسایی شامل تخصیص یک شناسه منحصر به فرد به موجودیت استخراج شده است. یک کار ساده‌تر «تشخیص موجودیت نامیده» است که هدف آن شناسایی موجودیت‌ها بدون داشتن دانش موجود در مورد نمونه‌های موجودیت است. برای مثال، در پردازش جمله "M. Smith عاشق ماهیگیری است"، "تشخیص موجودیت نامگذاری شده" به معنای "تشخیص" است که عبارت "M. Smith" به یک شخص اشاره دارد، اما لزوماً یا استفاده از هر دانشی در مورد اسمیت که همان شخص خاصی است که آن جمله در مورد او صحبت می کند یا "ممکن است" باشد.
  • استخراج اطلاعات جدول: استخراج اطلاعات به صورت ساختاریافته از جداول. این کار پیچیده‌تر از استخراج جدول است، زیرا استخراج جدول تنها اولین مرحله است، در حالی که درک نقش سلول‌ها، ردیف‌ها، ستون‌ها، پیوند دادن اطلاعات داخل جدول و درک اطلاعات ارائه‌شده در جدول، کارهای اضافی لازم برای جدول هستند. [۹][۱۰][۱۱]
  • استخراج نظرات: استخراج نظرات از محتوای واقعی مقاله به منظور بازیابی پیوند بین نویسنده هر جمله
  • تجزیه و تحلیل زبان و واژگان
  • استخراج اصطلاحات: یافتن اصطلاحات مربوطه برای یک جسم
  • استخراج صدا
    • استخراج موسیقی مبتنی بر الگو: یافتن ویژگی مرتبط در یک سیگنال صوتی که از یک رپرتوار معین گرفته شده است. برای مثال[۱۲]شاخص های زمانی وقوع صداهای ضربی را می توان به منظور نشان دادن مؤلفه ریتمیک ضروری یک قطعه موسیقی استخراج کرد.

برنامه های کاربردی وب جهانی[ویرایش]

IE تمرکز کنفرانس های MUC بوده است. با این حال، گسترش Web نیاز به توسعه سیستم‌های اینترنت اکسپلورر را تشدید کرد که به مردم کمک می‌کند تا با مقدار عظیم داده که به صورت آنلاین در دسترس است کنار بیایند. سیستم هایی که اینترنت اکسپلورر را از متن آنلاین انجام می دهند باید الزامات هزینه کم، انعطاف پذیری در توسعه و سازگاری آسان با دامنه های جدید را برآورده کنند. سیستم های MUC نمی توانند این معیارها را برآورده کنند. علاوه بر این، تجزیه و تحلیل زبانی انجام شده برای متن بدون ساختار، از برچسب‌های HTML/XML و قالب‌های طرح‌بندی موجود در متون آنلاین استفاده نمی‌کند. در نتیجه، رویکردهای فشرده زبانی کمتری برای IE در وب با استفاده از wrapper ایجاد شده است، که مجموعه‌ای از قوانین بسیار دقیق هستند که محتوای یک صفحه خاص را استخراج می‌کنند. ثابت شده است که توسعه دستی لفاف ها یک کار زمان بر است و به تخصص بالایی نیاز دارد. تکنیک‌های یادگیری ماشینی، یا با نظارت یا بدون نظارت، برای القای خودکار چنین قوانینی استفاده شده‌اند.

«Wrappers» معمولاً مجموعه‌های بسیار ساختاریافته از صفحات وب، مانند کاتالوگ محصولات و فهرست‌های تلفن را مدیریت می‌کنند. با این حال، زمانی که نوع متن ساختار کمتری دارد، که در وب نیز رایج است، شکست می‌خورند. تلاش‌های اخیر بر روی «استخراج اطلاعات تطبیقی» انگیزه توسعه سیستم‌های IE را فراهم می‌کند که می‌توانند انواع مختلفی از متن، از ساختار مناسب گرفته تا متن تقریباً آزاد - که در آن بسته‌بندی‌های رایج با شکست مواجه می‌شوند- از جمله انواع مختلط را مدیریت کنند. چنین سیستم‌هایی می‌توانند از دانش زبان طبیعی کم عمق بهره‌برداری کنند و بنابراین می‌توانند در متون کمتر ساختارمند نیز اعمال شوند.

توسعه اخیر استخراج اطلاعات بصری است[۱۳][۱۴]که متکی به ارائه یک صفحه وب در یک مرورگر و ایجاد قوانین بر اساس نزدیکی مناطق در صفحه وب ارائه شده است. این به استخراج موجودیت ها از صفحات وب پیچیده کمک می کند که ممکن است یک الگوی بصری نشان دهند، اما فاقد الگوی قابل تشخیص در کد منبع HTML هستند.

رویکردها[ویرایش]

رویکردهای استاندارد زیر اکنون به طور گسترده پذیرفته شده اند:

  • عبارات منظم دست نویس (یا گروه تو در تو از عبارات منظم)
  • استفاده از طبقه بندی کننده ها
    • مولد: طبقه‌بندی کننده ساده
    • تبعیض آمیز: مدل‌های آنتروپی حداکثر مانند رگرسیون لجستیک چند جمله‌ای
  • مدل های دنباله ای
    • شبکه عصبی مکرر
    • مدل مارکوف پنهان
    • مدل مارکوف مشروط (CMM) / مدل مارکوف حداکثر آنتروپی (MEMM)
    • زمینه تصادفی شرطیها (CRF) معمولاً همراه با IE برای کارهایی مانند استخراج اطلاعات از مقالات تحقیقاتی استفاده می‌شوند.[۱۵].[۱۶]

روش‌های متعدد دیگری برای IE وجود دارد، از جمله رویکردهای ترکیبی که برخی از رویکردهای استاندارد ذکر شده قبلی را ترکیب می‌کنند.

نرم افزار و خدمات منبع باز یا رایگان[ویرایش]

  • معماری عمومی برای مهندسی متن (GATE) با یک سیستم استخراج اطلاعات رایگان همراه است
  • Apache OpenNLP یک ابزار یادگیری ماشین جاوا برای پردازش زبان طبیعی است
  • OpenCalais یک سرویس وب استخراج خودکار اطلاعات از Thomson Reuters است (نسخه محدود رایگان)
  • Machine Learning for Language Toolkit (Mallet) یک بسته مبتنی بر جاوا برای انواع وظایف پردازش زبان طبیعی، از جمله استخراج اطلاعات است.
  • DBpedia Spotlight یک ابزار منبع باز در جاوا/اسکالا (و سرویس وب رایگان) است که می‌تواند برای شناسایی موجودیت‌های نام‌گذاری شده و وضوح نام استفاده شود.
  • Natural Language Toolkit مجموعه ای از کتابخانه ها و برنامه ها برای پردازش زبان طبیعی نمادین و آماری (NLP) برای زبان برنامه نویسی پایتون است.
  • پیاده سازی CRF را نیز ببینید

لینک های اضافه[ویرایش]

https://en.wikipedia.org/wiki/Information_extraction

منابع[ویرایش]

  1. FREITAG, DAYNE. "Machine Learning for Information Extraction in Informal Domains" (PDF). 2000 Kluwer Academic Publishers. Printed in the Netherlands.صفحه پودمان:Citation/CS1/en/styles.css محتوایی ندارد.
  2. خطای لوآ در پودمان:Citation/CS1/en/Identifiers در خط 47: attempt to index field 'wikibase' (a nil value).
  3. خطای لوآ در پودمان:Citation/CS1/en/Identifiers در خط 47: attempt to index field 'wikibase' (a nil value).
  4. Marco Costantino, Paolo Coletti, Information Extraction in Finance, Wit Press, 2008. شابک ‎۹۷۸−۱−۸۴۵۶۴−۱۴۶−۷
  5. "Linked Data - The Story So Far" (PDF).صفحه پودمان:Citation/CS1/en/styles.css محتوایی ندارد.
  6. "Tim Berners-Lee on the next Web".صفحه پودمان:Citation/CS1/en/styles.css محتوایی ندارد.
  7. R. K. Srihari, W. Li, C. Niu and T. Cornell,"InfoXtract: A Customizable Intermediate Level Information Extraction Engine",Journal of Natural Language Engineering,[پیوند مرده] Cambridge U. Press, 14(1), 2008, pp.33-69.
  8. خطای لوآ در پودمان:Citation/CS1/en/Identifiers در خط 47: attempt to index field 'wikibase' (a nil value).
  9. خطای لوآ در پودمان:Citation/CS1/en/Identifiers در خط 47: attempt to index field 'wikibase' (a nil value).
  10. خطای لوآ در پودمان:Citation/CS1/en/Identifiers در خط 47: attempt to index field 'wikibase' (a nil value).
  11. Milosevic, Nikola (2018). A multi-layered approach to information extraction from tables in biomedical documents (PDF) (PhD). University of Manchester.صفحه پودمان:Citation/CS1/en/styles.css محتوایی ندارد.
  12. A.Zils, F.Pachet, O.Delerue and F. Gouyon, Automatic Extraction of Drum Tracks from Polyphonic Music Signals, Proceedings of WedelMusic, Darmstadt, Germany, 2002.
  13. Chenthamarakshan, Vijil; Desphande, Prasad M; Krishnapuram, Raghu; Varadarajan, Ramakrishnan; Stolze, Knut (2015). "WYSIWYE: An Algebra for Expressing Spatial and Textual Rules for Information Extraction". arXiv:1506.08454 [cs.CL].
  14. خطای لوآ در پودمان:Citation/CS1/en/Identifiers در خط 47: attempt to index field 'wikibase' (a nil value).
  15. خطای لوآ در پودمان:Citation/CS1/en/Identifiers در خط 47: attempt to index field 'wikibase' (a nil value).
  16. Shimizu, Nobuyuki; Hass, Andrew (2006). "Extracting Frame-based Knowledge Representation from Route Instructions" (PDF). Archived from the original (PDF) on 2006-09-01. Retrieved 2010-03-27.صفحه پودمان:Citation/CS1/en/styles.css محتوایی ندارد.

رده:مقاله‌های ایجاد شده توسط ایجادگر



This article "IE استخراج اطلاعات" is from Wikipedia. The list of its authors can be seen in its historical and/or the page Edithistory:IE استخراج اطلاعات. Articles copied from Draft Namespace on Wikipedia could be seen on the Draft Namespace of Wikipedia and not main one.



Read or create/edit this page in another language[ویرایش]