IE استخراج اطلاعات
این مقاله، IE استخراج اطلاعات، اخیراً بهواسطهٔ فرایند ایجاد مقاله ایجاد شدهاست. بازبینیکننده در حال بستن درخواست است و این برچسب احتمالاً بهزودی برداشته میشود.
ابزارهای بازبینی: پیشبارگیری بحث اعلان به نگارنده |
خطای اسکریپتی: پودمان «AfC submission catcheck» وجود ندارد. ""استخراج اطلاعات"" ("IE") وظیفه استخراج خودکار اطلاعات ساختاریافته از بدون ساختار ویا نیمهساختار یافته قابل خواندن توسط ماشین است از اسناد و سایر منابع ارائه شده به صورت الکترونیکی. در بیشتر موارد، این فعالیت مربوط به پردازش متون زبان انسانی با استفاده از پردازش زبان طبیعی (NLP) است. فعالیتهای اخیر در چند رسانهای پردازش سند مانند حاشیهنویسی خودکار و استخراج محتوا از تصاویر/صوتی/ویدئو/اسناد میتواند به عنوان استخراج اطلاعات تلقی شود.
با توجه به دشواری مساله، رویکردهای فعلی در IE بر دامنههای محدودی متمرکز است. یک مثال استخراج از گزارشهای اخبار مربوط به ادغام شرکتها است که با رابطه رسمی مشخص میشود.
(شرکت_1، شرکت_2، تاریخ)
از جمله یک خبر آنلاین مانند:
""دیروز، Foo Inc. مستقر در نیویورک، خرید Bar Corp را اعلام کرد."
هدف گسترده IE این است که امکان انجام محاسبات روی داده های بدون ساختار قبلی را فراهم کند. هدف خاص تر این است که به استدلال منطقی اجازه دهیم تا بر اساس محتوای منطقی داده های ورودی استنتاج کند. دادههای ساختیافته، دادههایی هستند که از لحاظ معنایی به خوبی تعریف شدهاند از یک دامنه هدف انتخاب شده، که با توجه به دستهبندی و زمینه تفسیر میشوند.
استخراج اطلاعات بخشی از یک پازل بزرگتر است که با مشکل ابداع روش های خودکار برای مدیریت متن، فراتر از انتقال، ذخیره سازی و نمایش آن سروکار دارد. نظم و انضباط از information retrieval (IR)[۱]روشهای خودکار، معمولاً با روش آماری، برای نمایهسازی مجموعههای اسناد بزرگ و طبقهبندی اسناد ایجاد کرده است. رویکرد مکمل دیگر، رویکرد پردازش زبان طبیعی (NLP) است که با در نظر گرفتن بزرگی کار، مشکل مدلسازی پردازش زبان انسانی را با موفقیت قابل توجهی حل کرده است. از نظر سختی و تاکید، IE با وظایف بین IR و NLP سروکار دارد. از نظر ورودی، IE وجود مجموعهای از اسناد را فرض میکند که در آن هر سند از یک الگو پیروی میکند، یعنی یک یا چند موجودیت یا رویداد را بهگونهای توصیف میکند که شبیه به اسناد دیگر است، اما در جزئیات متفاوت است. به عنوان مثال، گروهی از مقالات شبکه خبری در مورد تروریسم آمریکای لاتین را در نظر بگیرید که هر مقاله بر اساس یک یا چند اقدام تروریستی فرض می شود. ما همچنین برای هر وظیفه IE یک الگو تعریف می کنیم، که یک (یا مجموعه ای از) فریم (های) موردی برای نگهداری اطلاعات موجود در یک سند واحد است. برای مثال تروریسم، یک الگو دارای شکاف هایی است که مربوط به عامل، قربانی، و سلاح اقدام تروریستی و تاریخ وقوع رویداد است. یک سیستم اینترنت اکسپلورر برای این مشکل برای "درک" مقاله حمله فقط به اندازه کافی برای یافتن داده های مربوط به شکاف های این الگو مورد نیاز است.
تاریخچه[ویرایش]
تاریخ IE به اواخر دهه 1970 در روزهای اولیه NLP برمی گردد [۲]یک سیستم تجاری اولیه از اواسط دهه 1980، JASPER بود که برای رویترز توسط Carnegie Group Inc با هدف ارائه real-time financial news یا اخبار مالی بی درنگ به معاملهگران مالی ساخته شد.[۳]در آغاز در سال 1987، IE توسط یک سری از Message Understanding Conference MUC یک کنفرانس مبتنی بر رقابت است[۴] که تمرکز می کرد بر موضوعات با دامنه زیر:
- MUC-1 (1987), MUC-2 (1989): Naval operations messages.
- MUC-3 (1991), MUC-4 (1992): Terrorism in Latin American countries.
- MUC-5 (1993): Joint ventures and microelectronics domain.
- MUC-6 (1995): News articles on management changes.
- MUC-7 (1998): Satellite launch reports.
پشتیبانی قابل توجهی از سوی آژانس پروژه های تحقیقاتی پیشرفته دفاعی ایالات متحده صورت گرفت (DARPA) کسانی که مایل بودند کارهای روزمره انجام شده توسط تحلیلگران دولتی، مانند اسکن روزنامه ها برای پیوندهای احتمالی با تروریسم را اتوماتیک کنند.
اهمیت فعلی[ویرایش]
اهمیت فعلی IE به مقدار فزاینده اطلاعات موجود به شکل بدون ساختار مربوط می شود Tim Berners-Lee مخترع world wide web اینترنت حال حاضر را به عنوان اسناد می شناسد [۵]و از آن حمایت می کند که بیشتر محتوا به صورت وب داده ها در دسترس باشد.[۶]تا زمانی که این اتفاق نیفتد، وب عمدتاً از اسناد بدون ساختار و فاقد فراداده معنایی تشکیل شده است. دانش موجود در این اسناد را می توان با تبدیل به شکل رابطه ای یا با علامت گذاری با برچسب های XML برای پردازش ماشینی در دسترس تر کرد. یک عامل هوشمند که یک اثر دادههای خبری را وارسی میکند، به IE نیاز دارد تا دادههای بدون ساختار را به چیزی تبدیل کند که بتوان با آن استدلال کرد. یک کاربرد معمولی IE اسکن مجموعه ای از اسناد نوشته شده به یک زبان طبیعی و پر کردن یک پایگاه داده با اطلاعات استخراج شده است.[۷]
وظایف و وظایف فرعی[ویرایش]
استفاده از استخراج اطلاعات در متن با مشکل ساده سازی متن به منظور ایجاد نمای ساختاری از اطلاعات موجود در متن آزاد مرتبط است. هدف کلی ایجاد متنی با قابلیت خواندن ماشینی آسان تر برای پردازش جملات است. وظایف و وظایف فرعی معمولی IE عبارتند از:
- پر کردن الگو: استخراج مجموعه ثابتی از فیلدها از یک سند، به عنوان مثال. عاملان، قربانیان، زمان و غیره را از یک مقاله روزنامه در مورد یک حمله تروریستی استخراج کنید.
- استخراج رویداد: با توجه به یک سند ورودی، خروجی صفر یا بیشتر الگوهای رویداد. به عنوان مثال، یک مقاله روزنامه ممکن است حملات تروریستی متعددی را توصیف کند.
- پایه دانش جمعیت: یک پایگاه داده از حقایق را با مجموعه ای از اسناد پر کنید. به طور معمول پایگاه داده به شکل سه گانه است (موجود 1، رابطه، موجودیت 2)، به عنوان مثال. (باراک اوباما، همسر، میشل اوباما)
- تشخیص نهاد نامگذاری شده: شناسایی نام های موجودیت شناخته شده (برای افراد و سازمان ها)، نام مکان ها، عبارات زمانی، و انواع خاصی از عبارات عددی، با استفاده از دانش موجود از دامنه یا اطلاعات استخراج شده از جملات دیگر.[۸]به طور معمول، وظیفه شناسایی شامل تخصیص یک شناسه منحصر به فرد به موجودیت استخراج شده است. یک کار سادهتر «تشخیص موجودیت نامیده» است که هدف آن شناسایی موجودیتها بدون داشتن دانش موجود در مورد نمونههای موجودیت است. برای مثال، در پردازش جمله "M. Smith عاشق ماهیگیری است"، "تشخیص موجودیت نامگذاری شده" به معنای "تشخیص" است که عبارت "M. Smith" به یک شخص اشاره دارد، اما لزوماً یا استفاده از هر دانشی در مورد اسمیت که همان شخص خاصی است که آن جمله در مورد او صحبت می کند یا "ممکن است" باشد.
- استخراج اطلاعات جدول: استخراج اطلاعات به صورت ساختاریافته از جداول. این کار پیچیدهتر از استخراج جدول است، زیرا استخراج جدول تنها اولین مرحله است، در حالی که درک نقش سلولها، ردیفها، ستونها، پیوند دادن اطلاعات داخل جدول و درک اطلاعات ارائهشده در جدول، کارهای اضافی لازم برای جدول هستند. [۹][۱۰][۱۱]
- استخراج نظرات: استخراج نظرات از محتوای واقعی مقاله به منظور بازیابی پیوند بین نویسنده هر جمله
- تجزیه و تحلیل زبان و واژگان
- استخراج اصطلاحات: یافتن اصطلاحات مربوطه برای یک جسم
- استخراج صدا
- استخراج موسیقی مبتنی بر الگو: یافتن ویژگی مرتبط در یک سیگنال صوتی که از یک رپرتوار معین گرفته شده است. برای مثال[۱۲]شاخص های زمانی وقوع صداهای ضربی را می توان به منظور نشان دادن مؤلفه ریتمیک ضروری یک قطعه موسیقی استخراج کرد.
برنامه های کاربردی وب جهانی[ویرایش]
IE تمرکز کنفرانس های MUC بوده است. با این حال، گسترش Web نیاز به توسعه سیستمهای اینترنت اکسپلورر را تشدید کرد که به مردم کمک میکند تا با مقدار عظیم داده که به صورت آنلاین در دسترس است کنار بیایند. سیستم هایی که اینترنت اکسپلورر را از متن آنلاین انجام می دهند باید الزامات هزینه کم، انعطاف پذیری در توسعه و سازگاری آسان با دامنه های جدید را برآورده کنند. سیستم های MUC نمی توانند این معیارها را برآورده کنند. علاوه بر این، تجزیه و تحلیل زبانی انجام شده برای متن بدون ساختار، از برچسبهای HTML/XML و قالبهای طرحبندی موجود در متون آنلاین استفاده نمیکند. در نتیجه، رویکردهای فشرده زبانی کمتری برای IE در وب با استفاده از wrapper ایجاد شده است، که مجموعهای از قوانین بسیار دقیق هستند که محتوای یک صفحه خاص را استخراج میکنند. ثابت شده است که توسعه دستی لفاف ها یک کار زمان بر است و به تخصص بالایی نیاز دارد. تکنیکهای یادگیری ماشینی، یا با نظارت یا بدون نظارت، برای القای خودکار چنین قوانینی استفاده شدهاند.
«Wrappers» معمولاً مجموعههای بسیار ساختاریافته از صفحات وب، مانند کاتالوگ محصولات و فهرستهای تلفن را مدیریت میکنند. با این حال، زمانی که نوع متن ساختار کمتری دارد، که در وب نیز رایج است، شکست میخورند. تلاشهای اخیر بر روی «استخراج اطلاعات تطبیقی» انگیزه توسعه سیستمهای IE را فراهم میکند که میتوانند انواع مختلفی از متن، از ساختار مناسب گرفته تا متن تقریباً آزاد - که در آن بستهبندیهای رایج با شکست مواجه میشوند- از جمله انواع مختلط را مدیریت کنند. چنین سیستمهایی میتوانند از دانش زبان طبیعی کم عمق بهرهبرداری کنند و بنابراین میتوانند در متون کمتر ساختارمند نیز اعمال شوند.
توسعه اخیر استخراج اطلاعات بصری است[۱۳][۱۴]که متکی به ارائه یک صفحه وب در یک مرورگر و ایجاد قوانین بر اساس نزدیکی مناطق در صفحه وب ارائه شده است. این به استخراج موجودیت ها از صفحات وب پیچیده کمک می کند که ممکن است یک الگوی بصری نشان دهند، اما فاقد الگوی قابل تشخیص در کد منبع HTML هستند.
رویکردها[ویرایش]
رویکردهای استاندارد زیر اکنون به طور گسترده پذیرفته شده اند:
- عبارات منظم دست نویس (یا گروه تو در تو از عبارات منظم)
- استفاده از طبقه بندی کننده ها
- مولد: طبقهبندی کننده ساده
- تبعیض آمیز: مدلهای آنتروپی حداکثر مانند رگرسیون لجستیک چند جملهای
- مدل های دنباله ای
- شبکه عصبی مکرر
- مدل مارکوف پنهان
- مدل مارکوف مشروط (CMM) / مدل مارکوف حداکثر آنتروپی (MEMM)
- زمینه تصادفی شرطیها (CRF) معمولاً همراه با IE برای کارهایی مانند استخراج اطلاعات از مقالات تحقیقاتی استفاده میشوند.[۱۵].[۱۶]
روشهای متعدد دیگری برای IE وجود دارد، از جمله رویکردهای ترکیبی که برخی از رویکردهای استاندارد ذکر شده قبلی را ترکیب میکنند.
نرم افزار و خدمات منبع باز یا رایگان[ویرایش]
- معماری عمومی برای مهندسی متن (GATE) با یک سیستم استخراج اطلاعات رایگان همراه است
- Apache OpenNLP یک ابزار یادگیری ماشین جاوا برای پردازش زبان طبیعی است
- OpenCalais یک سرویس وب استخراج خودکار اطلاعات از Thomson Reuters است (نسخه محدود رایگان)
- Machine Learning for Language Toolkit (Mallet) یک بسته مبتنی بر جاوا برای انواع وظایف پردازش زبان طبیعی، از جمله استخراج اطلاعات است.
- DBpedia Spotlight یک ابزار منبع باز در جاوا/اسکالا (و سرویس وب رایگان) است که میتواند برای شناسایی موجودیتهای نامگذاری شده و وضوح نام استفاده شود.
- Natural Language Toolkit مجموعه ای از کتابخانه ها و برنامه ها برای پردازش زبان طبیعی نمادین و آماری (NLP) برای زبان برنامه نویسی پایتون است.
- پیاده سازی CRF را نیز ببینید
لینک های اضافه[ویرایش]
https://en.wikipedia.org/wiki/Information_extraction
منابع[ویرایش]
- ↑ FREITAG, DAYNE. "Machine Learning for Information Extraction in Informal Domains" (PDF). 2000 Kluwer Academic Publishers. Printed in the Netherlands.صفحه پودمان:Citation/CS1/en/styles.css محتوایی ندارد.
- ↑ خطای لوآ در پودمان:Citation/CS1/en/Identifiers در خط 47: attempt to index field 'wikibase' (a nil value).
- ↑ خطای لوآ در پودمان:Citation/CS1/en/Identifiers در خط 47: attempt to index field 'wikibase' (a nil value).
- ↑ Marco Costantino, Paolo Coletti, Information Extraction in Finance, Wit Press, 2008. شابک ۹۷۸−۱−۸۴۵۶۴−۱۴۶−۷
- ↑ "Linked Data - The Story So Far" (PDF).صفحه پودمان:Citation/CS1/en/styles.css محتوایی ندارد.
- ↑ "Tim Berners-Lee on the next Web".صفحه پودمان:Citation/CS1/en/styles.css محتوایی ندارد.
- ↑ R. K. Srihari, W. Li, C. Niu and T. Cornell,"InfoXtract: A Customizable Intermediate Level Information Extraction Engine",Journal of Natural Language Engineering,[پیوند مرده] Cambridge U. Press, 14(1), 2008, pp.33-69.
- ↑ خطای لوآ در پودمان:Citation/CS1/en/Identifiers در خط 47: attempt to index field 'wikibase' (a nil value).
- ↑ خطای لوآ در پودمان:Citation/CS1/en/Identifiers در خط 47: attempt to index field 'wikibase' (a nil value).
- ↑ خطای لوآ در پودمان:Citation/CS1/en/Identifiers در خط 47: attempt to index field 'wikibase' (a nil value).
- ↑ Milosevic, Nikola (2018). A multi-layered approach to information extraction from tables in biomedical documents (PDF) (PhD). University of Manchester.صفحه پودمان:Citation/CS1/en/styles.css محتوایی ندارد.
- ↑ A.Zils, F.Pachet, O.Delerue and F. Gouyon, Automatic Extraction of Drum Tracks from Polyphonic Music Signals, Proceedings of WedelMusic, Darmstadt, Germany, 2002.
- ↑ Chenthamarakshan, Vijil; Desphande, Prasad M; Krishnapuram, Raghu; Varadarajan, Ramakrishnan; Stolze, Knut (2015). "WYSIWYE: An Algebra for Expressing Spatial and Textual Rules for Information Extraction". arXiv:1506.08454 [cs.CL].
- ↑ خطای لوآ در پودمان:Citation/CS1/en/Identifiers در خط 47: attempt to index field 'wikibase' (a nil value).
- ↑ خطای لوآ در پودمان:Citation/CS1/en/Identifiers در خط 47: attempt to index field 'wikibase' (a nil value).
- ↑ Shimizu, Nobuyuki; Hass, Andrew (2006). "Extracting Frame-based Knowledge Representation from Route Instructions" (PDF). Archived from the original (PDF) on 2006-09-01. Retrieved 2010-03-27.صفحه پودمان:Citation/CS1/en/styles.css محتوایی ندارد.
رده:مقالههای ایجاد شده توسط ایجادگر
This article "IE استخراج اطلاعات" is from Wikipedia. The list of its authors can be seen in its historical and/or the page Edithistory:IE استخراج اطلاعات. Articles copied from Draft Namespace on Wikipedia could be seen on the Draft Namespace of Wikipedia and not main one.