Word embedding
تعبیه کلمه (word embedding) مجموعه ای از مدلهای زبانی و تکنیک های یادگیری ویژگی در پردازش زبان طبیعی (NLP) است که در آن کلمات یا عبارات از واژگان به بردارهایی از اعداد واقعی نگاشت می شوند . از نظر مفهومی در واقع تعبیه کلمه یک جاسازی ریاضی از یک فضای با ابعاد بسیار زیاد برای هر کلمه به یک فضای برداری پیوسته با ابعاد بسیار پایین تر است.
برای ایجاد این نگاشت روش های بسیار زیادی شامل شبکه های عصبی ، کاهش ابعاد در ماتریس همرخدادی کلمه ، [۱] مدل های احتمالی ، [۲] روش دانش بنیان قابل توضیح ، [۳] و نمایش صریح از نظر از موضوعی که کلمات در آن ظاهر می شود ، وجود دارد.
تعبیه کلمات و عبارات ، هنگامی که به عنوان ورودی اصلی استفاده می شود ، نشان داده اند که عملکردهای مسائل مربوط به پردازش زبان مانند تجزیه نحوی و تجزیه و تحلیل احساسات را افزایش می دهد .
توسعه و تاریخچه رویکرد[ویرایش]
در زبانشناسی ، تعبیه واژه ها در حوزه تحقیق معناشناسی توزیعی مورد بحث قرار گرفته است. هدف در این بررسی این است که شباهت های معنایی بین ساختارهای زبانی را بر اساس خصوصیات توزیعی آن ها با کمک داده های کلان زبانی ، اندازه گیری و طبقه بندی کنند. این روش ها براساس یک ایده اساسی که "a word is characterized by the company it keeps" که بدین معنی است که هر کلمه براساس اطرافیان و سایر کلماتی که با آن میاید مشخص میشود، توسط Firth رواج پیدا کردند .
مفهوم فضای معنایی با کمک اقلام واژگانی (کلمات یا عبارتهای چند کلمهای) که با بردارها یا فضاهای تعبیه شده نشان داده میشوند، بر مبنای مدلهای محاسباتی هستند که تلاش میکنند تا ویژگیهای توضیع کلمات را بیابیند. این مدلهای محاسباتی در کاربرد برای اندازه گیری میزان شباهت بین کلمات و عبارات و متون استفاده میشوند. اولین نسل از مدل های فضای معنایی ، مدل فضای برداری برای بازیابی اطلاعات است. [۴] [۵] [۶] چنین مدل های بردار فضایی برای کلمات و داده های توزیعی آنها، در ساده ترین شکل خود به یک فضای برداری بسیار تنک با ابعاد بالا منجر می شود (ر.ک. مشقت بعدچندی ). کاهش تعداد ابعاد با استفاده از روشهای جبری خطی مانند تجزیه مقدار منفرد منجر به معرفی تحلیل معنایی نهفته در اواخر دهه 1980 و رویکرد نمایه سازی تصادفی برای جمع آوری زمینه های همزمانی کلمات شد. [۷] [۸] [۹] [۱۰] [۱۱].در سال 2000 Bengio و دیگران در یک سری از مقالات مدل "Neural probabilistic language models" معرفی کردند تا با کمک "یادگیری نمایش توزیع شده برای کلمات" از ابعاد بالای نمایش کلمات را کاهش دهند. [۱۲] تعبیه واژه ها در دو سبک متفاوت وجود دارد ، یکی در آن کلمات به عنوان بردار کلمات هم رخداد هستند ، و در دیگری در آن کلمات به عنوان بردار متن های زبانی که کلمات در آن وجود دارد ، بیان می شوند. این سبکهای مختلف در (Lavelli et al.، 2004) مورد مطالعه قرار گرفته است. از سال ۲۰۰۵ به بعد بیشتر روش های تعبیه کلمات بر مبنای استفاده از شبکههای عصبی[۱۳] [۱۴] شدند و استفاده از از مدل های احتمالاتی و جبری کاهش یافت این به خاطر کارهای بنادین پروفسور بنجیو و همکارانش بود.
پس از پیشرفتهای سال 2010 در سرعت آموزش مدل های عصبی و پیشرفتهای سخت افزاری برای اموزش شبکه های عصبی، كه باعث می شد تا فضای پارامتر وسیع تری بررسی شود، رویكرد استفاده از شبکههای عصبی توسط بسیاری از گروههای تحقیقاتی مورد توجه قرار گرفت. در سال 2013 ، یک تیم در گوگل به رهبری توماس میکولوف word2vec را ایجاد کردند ،word2vec یک جعبه ابزار تعبیه کلمه است که می تواند مدلهای فضایی برداری را سریعتر از رویکردهای قبلی آموزش دهد. رویکرد word2vec به طور گسترده ای در آزمایشات مورد استفاده قرار گرفته است و در افزایش علاقه به تعبیه واژه ها به عنوان یک فناوری ، و انتقال این رشته از تحقیقات تخصصی به سمت آزمایش های گسترده تر و در نهایت زمینه سازی برای کاربردهای عملی بسیار مثر بود. [۱۵]
محدودیت ها[ویرایش]
یکی از محدودیت های اصلی تعبیه کلمات (به طور کلی مدل های فضای بردار کلمات) این است که کلمات با چندین معنی در یک نمایش واحد (یک بردار واحد در فضای معنایی) تلفیق می شوند. به عبارت دیگر ، چند همسانی و همسان سازی به درستی اداره نمی شود. به عنوان مثال ، در جمله "رنگ شیر سفید بود" ، مشخص نیست که آیا کلمه "شیر" به معنای شیر به عنوان حیوان است یا شیر به عنوان یک نوشیدنی. از این رو ضرورت استفاده از چندین معنای هر کلمه در بردارهای مختلف (تعبیه های چندمعنایی) مشخص شد. و همین مورد انگیزه برای تحقیقات برای تقسیم تعبیه های تک معنا به موارد چند معنایی شده است.
اکثر رویکردهایی که تعبیه های چند مفهومی را ایجاد می کنند ، برای نمایش معنای کلمه ای خود به دو دسته اصلی تقسیم شوند یکی روش های بدون نظارت و دیگری روش های دانش بنیان. بر اساس skip-gram word2vec ، اسکیپ گرام چند منظوره (MSSG) [۱۶] با در نظر گرفتن تعداد معینی از معنی برای هر کلمه ، به طور همزمان ، تمایز بین معانی و تعبیه واژهر [۱۷] را انجام می دهد و زمان آموزش خود را بهبود می بخشد. در اسکیپ گرام غیر پارامتری (NP-MSSG) این تعداد بسته به هر کلمه می تواند متفاوت باشد. ترکیب دانش قبلی از پایگاه داده های واژگانی (به عنوان مثال، ورد نت ، ConceptNet ، بابلنت )، درونه گیریها کلمه و ابهامزدایی حس کلمه، مناسب ترین حس حاشیه نویسی (MSSA) [۱۸] برچسب کلمه حواس از طریق یک رویکرد نظارت نشده و مبتنی بر دانش با توجه زمینه یک کلمه در یک پنجره کشویی از پیش تعریف شده هنگامی که کلمات از ابهام خارج شدند ، می توان آنها را در یک روش استاندارد تعبیه کلمات استفاده کرد ، بنابراین تعبیه های چند مفهومی تولید می شوند. معماری MSSA این امکان را می دهد تا روند ابهام زدایی و حاشیه نویسی به صورت خودکار و بصورت مکرر انجام شود.
استفاده از تعبیه های چند منظوره برای بهبود عملکرد در چندین کاربرد پردازش زبان مانند برچسب گذاری بخشی از گفتار ، شناسایی رابطه معنایی و ارتباط معنایی شناخته شده است ،. با این حال ، به نظر می رسد این گونه تعبیهها در کاربردهای مربوط به تشخیص کلمات خاص و تجزیه و تحلیل احساسات چندان کارایی ندارند. [۱۹]
برای توالی های بیولوژیکی: BioVectors[ویرایش]
تعبیه کلمات برای n-grams در توالی های بیولوژیکی (به عنوان مثال DNA ، RNA و پروتئین ها) برای کاربردهای بیوانفورماتیک توسط Asgari و Mofrad پیشنهاد شده است. [۲۰] بردارهای زیستی (BioVec) برای اشاره به توالی های بیولوژیکی به طور کلی با پروتئین بردارها (ProtVec) برای پروتئین ها (توالی اسیدهای آمینه) و بردارهای ژنی (GeneVec) برای توالی های ژنی ، این نمایش را می توان به طور گسترده ای در کاربردهای یادگیری عمیق در پروتئومیکس و ژنومیک استفاده کرد. نتایج ارائه شده توسط عسگری و مفرد نشان می دهد که BioVectors می تواند توالی های بیولوژیکی را از نظر تفسیرهای بیوشیمیایی و بیوفیزیکی از الگوهای اساسی توصیف کند.
بردارهای اندیشه[ویرایش]
بردارهای اندیشه بستی بر تعبیه کلمات به کل جملات یا حتی اسناد هستند. برخی از محققان امیدوارند که این روشها بتواند کیفیت ترجمه ماشینی را بهبود بخشد. [۲۱]
نرم افزار آموزش و استفاده از تعبیه کلمات شامل Word2vec توسط میکولو ، Glove از دانشگاه استنفورد ، [۲۲] GN-GloVe ، [۲۳] AllenNLP's ELMo ، [۲۴] BERT ، [۲۵] fastText ، Gensim ، [۲۶] Indra [۲۷] و روش های کاهش بعد مثل t-SNE , PCA برای نمایش کلمات هستند. [۲۸]
نمونه هایی از کاربرد[ویرایش]
به عنوان مثال ، از fastText برای محاسبه تعبیه شده کلمات در Sketch Engine قرار گرفته است که به صورت آنلاین نیز در دسترس هستند . [۲۹]
همچنین ببینید[ویرایش]
- خوشه قهوه ای
منابع[ویرایش]
- ↑ خطای لوآ در پودمان:Citation/CS1/en/Identifiers در خط 47: attempt to index field 'wikibase' (a nil value).
- ↑ Globerson, Amir (2007). "Euclidean Embedding of Co-occurrence Data" (PDF). Journal of Machine Learning Research.صفحه پودمان:Citation/CS1/en/styles.css محتوایی ندارد.
- ↑ خطای لوآ در پودمان:Citation/CS1/en/Identifiers در خط 47: attempt to index field 'wikibase' (a nil value).
- ↑ خطای لوآ در پودمان:Citation/CS1/en/Identifiers در خط 47: attempt to index field 'wikibase' (a nil value).
- ↑ خطای لوآ در پودمان:Citation/CS1/en/Identifiers در خط 47: attempt to index field 'wikibase' (a nil value).
- ↑ Dubin, David (2004). "The most influential paper Gerard Salton never wrote". Retrieved 18 October 2020.صفحه پودمان:Citation/CS1/en/styles.css محتوایی ندارد.
- ↑ Sahlgren, Magnus. "A brief history of word embeddings".صفحه پودمان:Citation/CS1/en/styles.css محتوایی ندارد.
- ↑ Kanerva, Pentti, Kristoferson, Jan and Holst, Anders (2000): Random Indexing of Text Samples for Latent Semantic Analysis, Proceedings of the 22nd Annual Conference of the Cognitive Science Society, p. 1036. Mahwah, New Jersey: Erlbaum, 2000.
- ↑ Karlgren, Jussi; Sahlgren, Magnus (2001). Uesaka, Yoshinori; Kanerva, Pentti; Asoh, Hideki, eds. "From words to understanding". Foundations of Real-World Intelligence. CSLI Publications: 294–308.صفحه پودمان:Citation/CS1/en/styles.css محتوایی ندارد.
- ↑ Sahlgren, Magnus (2005) An Introduction to Random Indexing, Proceedings of the Methods and Applications of Semantic Indexing Workshop at the 7th International Conference on Terminology and Knowledge Engineering, TKE 2005, August 16, Copenhagen, Denmark
- ↑ Sahlgren, Magnus, Holst, Anders and Pentti Kanerva (2008) Permutations as a Means to Encode Order in Word Space, In Proceedings of the 30th Annual Conference of the Cognitive Science Society: 1300–1305.
- ↑ Bengio, Yoshua; Ducharme, Réjean; Vincent, Pascal; Jauvin, Christian (2003). "A Neural Probabilistic Language Model" (PDF). Journal of Machine Learning Research. 3: 1137–1155.صفحه پودمان:Citation/CS1/en/styles.css محتوایی ندارد.
- ↑ Morin, Fredric; Bengio, Yoshua (2005). "Hierarchical probabilistic neural network language model". AIstats. 5: 246–252.صفحه پودمان:Citation/CS1/en/styles.css محتوایی ندارد.
- ↑ Mnih, Andriy; Hinton, Geoffrey (2009). "A Scalable Hierarchical Distributed Language Model". Advances in Neural Information Processing Systems 21 (NIPS 2008). Curran Associates, Inc.: 1081–1088.صفحه پودمان:Citation/CS1/en/styles.css محتوایی ندارد.
- ↑ word2vec
- ↑ خطای لوآ در پودمان:Citation/CS1/en/Identifiers در خط 47: attempt to index field 'wikibase' (a nil value).
- ↑ خطای لوآ در پودمان:Citation/CS1/en/Identifiers در خط 47: attempt to index field 'wikibase' (a nil value).
- ↑ خطای لوآ در پودمان:Citation/CS1/en/Identifiers در خط 47: attempt to index field 'wikibase' (a nil value).
- ↑ خطای لوآ در پودمان:Citation/CS1/en/Identifiers در خط 47: attempt to index field 'wikibase' (a nil value).
- ↑ خطای لوآ در پودمان:Citation/CS1/en/Identifiers در خط 47: attempt to index field 'wikibase' (a nil value).
- ↑ A bot will complete this citation soon. Click here to jump the queue"skip-thought vectors". MISSING LINK.. 2015.
- ↑ "GloVe".صفحه پودمان:Citation/CS1/en/styles.css محتوایی ندارد.
- ↑ Zhao, Jieyu (2018). "Learning Gender-Neutral Word Embeddings". arXiv:1809.01496.
- ↑ "Elmo".صفحه پودمان:Citation/CS1/en/styles.css محتوایی ندارد.
- ↑ Pires, Telmo; Schlinger, Eva. "How multilingual is Multilingual BERT?". arXiv:1906.01502.
- ↑ "Gensim".صفحه پودمان:Citation/CS1/en/styles.css محتوایی ندارد.
- ↑ "Indra". 2018-10-25.صفحه پودمان:Citation/CS1/en/styles.css محتوایی ندارد.
- ↑ Ghassemi, Mohammad; Mark, Roger; Nemati, Shamim (2015). "A Visualization of Evolving Clinical Sentiment Using Vector Representations of Clinical Notes" (PDF). Computing in Cardiology.صفحه پودمان:Citation/CS1/en/styles.css محتوایی ندارد.
- ↑ "Embedding Viewer". Embedding Viewer. Lexical Computing. Retrieved 7 Feb 2018.صفحه پودمان:Citation/CS1/en/styles.css محتوایی ندارد.
This article "Word embedding" is from Wikipedia. The list of its authors can be seen in its historical and/or the page Edithistory:Word embedding. Articles copied from Draft Namespace on Wikipedia could be seen on the Draft Namespace of Wikipedia and not main one.