پیش پردازش داده ها
این مقاله، پیش پردازش داده ها، اخیراً بهواسطهٔ فرایند ایجاد مقاله ایجاد شدهاست. بازبینیکننده در حال بستن درخواست است و این برچسب احتمالاً بهزودی برداشته میشود.
ابزارهای بازبینی: پیشبارگیری بحث اعلان به نگارنده |
خطای اسکریپتی: پودمان «AfC submission catcheck» وجود ندارد.
پیش پردازش دادهها میتواند به حذف دادهها قبل از استفاده به منظور افزایش عملکرد اشاره کند[۱] و مرحله مهمی در فرایند دادهکاوی است. عبارت «زباله داخل، زباله بیرون» برای پروژه داده کاوی و یادگیری ماشینی استفاده میشود. روشهای جمعآوری دادهها اغلب بهصورت ضعیف کنترل میشود، که منجر به مقادیر خارج از محدوده (به عنوان مثال، درآمد: ۱۰۰-)، ترکیبی از دادههای غیرممکن (به عنوان مثال، جنسیت: مرد، باردار: بله)، و مقادیر از دست رفته و دیگر موارد میشود. تجزیه و تحلیل دادههایی که برای چنین مشکلاتی غربالگری نشدهاند، میتواند نتایج گمراه کننده ای داشته باشد؛ درنتیجه، نمایش و کیفیت دادهها قبل از اجرای هر تحلیلی در درجه اول است.[۲] اغلب، پیش پردازش داده از مهمترین مرحله پروژه یادگیری ماشینی است، به ویژه در زیستشناسی محاسباتی.[۳]مراحل آمادهسازی دادهها و فیلتر کردن آنها میتواند زمان طولانی برای پردازش طول بکشد. نمونههایی از پیش پردازش دادهها شامل پاکسازی، انتخاب نمونه، کدگذاری، استخراج و انتخاب ویژگی و دیگر موارد است. پیش پردازش دادهها ممکن است بر نحوه تفسیر نتایج پردازش نهایی داده تأثیر داشته باشد.[۴] این جنبه باید با دقت زمانی که تفسیر نتایج یک نکته کلیدی است در نظر گرفته شود، مانند پردازش دادههای شیمیایی (شیمی سنجی).
وظایف پیش پردازش دادهها[ویرایش]
- پاکسازی دادهها
- ویرایش دادهها
- کاهش دادهها
- آمادهسازی داده
داده کاوی[ویرایش]
منشأ پیش پردازش داده در داده کاوی قرار دارد. ایده این است که اطلاعات موجود را جمعآوری کرده و در محتوا جستجو کنیم. همچنین مشخص شد که برای یادگیری ماشین و شبکههای عصبی یک مرحله پیش پردازش داده نیز مورد نیاز است؛ بنابراین به یک تکنیک جهانی تبدیل شده که بهطور کلی در محاسبات استفاده میشود. پیش پردازش دادهها با استفاده از پاکسازی دادهها امکان حذف دادههای ناخواسته را فراهم میکند، این به کاربر این امکان را میدهد که پس از مرحله پیش پردازش، مجموعه دادهای داشته باشد که حاوی اطلاعات ارزشمندتری باشد تا بعداً در فرایند داده کاوی دستکاری دادهها باشد. ویرایش چنین مجموعه دادهای برای خطای انسانی، گامی حیاتی برای بدست آوردن مثبتهای واقعی، منفیهای واقعی، مثبتهای کاذب و منفیهای کاذب یافت شده در ماتریس Confusion که معمولاً برای تشخیص پزشکی استفاده میشوند میباشد. کاربران میتوانند فایلهای داده را به یکدیگر متصل کنند و از پیش پردازش برای فیلتر کردن هرگونه نویز غیرضروری از دادهها که میتواند دقت بالاتری را داشته باشد استفاده کنند. کاربران از اسکریپتهای برنامهنویسی پایتون با کتابخانه پانداها استفاده میکنند که به آنها امکان وارد کردن دادهها از مقادیر جدا شده با کاما را به عنوان یک فریم داده میدهد. سپس از چارچوب داده برای دستکاری دادههایی استفاده میشود که انجام آنها در اکسل ممکن است چالشبرانگیز باشد. پانداها (نرمافزار) ابزار قدرتمندی است که امکان تجزیه و تحلیل دادهها را فراهم میکند که تجسم دادهها، عملیات آماری و غیره را بسیار آسانتر میکند. همچنین بسیاری از R (زبان برنامهنویسی) برای انجام چنین کارهایی استفاده میکنند. اینکه چرا کاربر فایلهای موجود را به یک فایل جدید تبدیل میکند، دلایل زیادی دارد. پیش پردازش دادهها با هدف جمعآوری اطلاعات، برچسب گذاری دادهها با دستهها (Data binning) انجام میشود.
پیش پردازش دادههای معنایی[ویرایش]
داده کاوی معنایی زیرمجموعه ای از داده کاوی است که به دنبال گنجاندن دانش حوزه، مانند معناشناسی، در فرایند داده کاوی است. دانش دامنه (دانش دُمین)، دانش محیطی است که دادهها در آن پردازش شدهاند. دانش دمین میتواند تأثیر مثبتی بر بسیاری از جنبههای دادهکاوی، مانند فیلتر کردن دادههای اضافی یا ناسازگار در طول مرحله پیشپردازش، داشته باشد.[۵] دانش دمین نیز به عنوان محدودیت عمل میکند. این کار را با استفاده از کار کردن به عنوان مجموعه ای از دانش قبلی انجام میدهد تا فضای مورد نیاز برای جستجو را کاهش دهد و به عنوان راهنمای دادهها عمل کند. به عبارت سادهتر، پیش پردازش معنایی به دنبال فیلتر کردن دادهها بهطور کارآمدتر با استفاده از محیط اصلی دادههای گفته شدهاست. همچنین مشکلات پیچیدهتری وجود دارند که نیاز است با تکنیکهای پیچیدهتر برای تحلیل بهتر اطلاعات موجود حل شوند. به جای ایجاد یک اسکریپت ساده برای جمع کردن مقادیر مختلف عددی در یک مقدار، منطقی است که بر پیش پردازش داده مبتنی بر معنا تمرکز کنیم.[۶] ایده ساخت یک هستیشناسی اختصاصی است که در سطح بالاتری توضیح میدهد که مشکل در مورد چیست.[۷] با توجه به داده کاوی معنایی و پیش پردازش معنایی، هستیشناسیها راهی برای مفهوم سازی و تعریف رسمی دانش و دادههای معنایی هستند. Protégé (نرمافزار) ابزار استاندارد برای ساخت یک هستیشناسی است.[۸] بهطور کلی، استفاده از هستیشناسیها شکافهای بین دادهها، الگوریتمها و نتایجی را که از عدم تطابق معنایی به وجود میآیند، پر میکند. در نتیجه، داده کاوی معنایی همراه با هستیشناسی کاربردهای زیادی دارد که در آن ابهام معنایی میتواند بر کارایی سیستمهای داده تأثیر بگذارد. برنامههای کاربردی شامل حوزه پزشکی، پردازش زبان، بانکداری،[۹] و حتی تدریس خصوصی،[۱۰] از جمله موارد دیگر است. استفاده از داده کاوی معنایی و رویکرد مبتنی بر هستیشناسی نقاط قوت مختلفی دارد. همانطور که قبلاً ذکر شد، این ابزارها میتوانند در مرحله هر پردازش با فیلتر کردن دادههای نامطلوب از مجموعه دادهها کمک رسان باشند. همچنین، معناشناسی با ساختار خوب که در هستیشناسیهای طراحیشده به خوبی ادغام شدهاند، میتوانند دادههای قدرتمندی را برگردانند که میتوانند به راحتی توسط ماشینها خوانده و پردازش شوند.[۱۱] مثال مفیدی از این مورد در استفاده پزشکی از پردازش دادههای معنایی وجود دارد. به عنوان مثال، یک بیمار در حال اورژانس پزشکی است و به سرعت به بیمارستان منتقل میشود. امدادگران اورژانس در تلاش هستند تا بهترین دارو را برای کمک به بیمار بیابند. تحت پردازش معمولی دادهها، بررسی تمام دادههای پزشکی بیمار برای اطمینان از دریافت بهترین درمان ممکن است بسیار طولانی شود و سلامت یا حتی زندگی بیمار را به خطر بیندازد. با این حال، با استفاده از هستیشناسیهای معنایی، اولین پاسخ دهندگان میتوانند جان بیمار را نجات دهند. ابزارهایی مانند استدلال معنایی میتوانند از هستیشناسی استفاده کنند تا به سادگی با بررسی زبان طبیعی مورد استفاده در سوابق پزشکی بیمار، استنباط کنند که بهترین دارو برای تجویز بر روی بیمار بر اساس سابقه پزشکی او است، برای مثال اگر او سرطان خاصی داشته باشد یا شرایط دیگر.[۱۲] این به اولین پاسخ دهندگان اجازه میدهد تا بدون نگرانی در مورد سابقه پزشکی بیمار خود، به سرعت و بهطور مؤثر به دنبال دارو بگردند، زیرا استدلال کننده معنایی قبلاً این دادهها را تجزیه و تحلیل کرده و راه حلهایی پیدا کردهاست. بهطور کلی، این نشان دهنده قدرت باورنکردنی استفاده از داده کاوی معنایی و هستیشناسی است. آنها امکان استخراج سریعتر و کارآمدتر دادهها را در سمت کاربر فراهم میکنند، زیرا کاربر متغیرهای کمتری برای محاسبه دارد، زیرا دادههای از پیش پردازش معنایی و هستیشناسی ساختهشده برای دادهها قبلاً بسیاری از این متغیرها را در نظر گرفتهاند. با این حال، اشکالاتی در این رویکرد وجود دارد؛ یعنی، به مقدار زیادی از قدرت محاسباتی و پیچیدگی نیاز دارد، حتی با مجموعه دادههای نسبتاً کوچک.[۱۳] این میتواند منجر به افزایش مشکلات در ساخت و نگهداری سیستمهای پردازش دادههای معنایی شود. اگر مجموعه دادهها از قبل به خوبی سازماندهی و قالببندی شده باشند، میتوان تا حدودی این موضوع را کاهش داد، اما حتی در آن زمان، در مقایسه با پردازش دادههای استاندارد، پیچیدگی همچنان بالاتر است. پیش پردازش فازی یکی دیگر از تکنیکهای پیشرفته تر برای حل مسائل پیچیدهاست. پیش پردازش فازی و داده کاوی فازی از مجموعههای فازی استفاده میکنند. این مجموعه دادهها از دو عنصر تشکیل شدهاند: یک مجموعه و یک تابع عضویت برای مجموعه که شامل ۰ و ۱ است. پیش پردازش فازی از این مجموعه دادههای فازی برای بنا کردن مقادیر عددی با اطلاعات زبانی استفاده میکند. سپس دادههای خام به زبان طبیعی تبدیل میشوند. در نهایت، هدف داده کاوی فازی کمک به مقابله با اطلاعات نادرست، مانند پایگاه داده ناقص است. در حال حاضر پیش پردازش فازی، و همچنین سایر تکنیکهای داده کاوی مبتنی بر فازی، بهطور مکرر با شبکههای عصبی و هوش مصنوعی استفاده میشود.[۱۴]
منابع[ویرایش]
این مقاله، پیش پردازش داده ها، اخیراً بهواسطهٔ فرایند ایجاد مقاله ایجاد شدهاست. بازبینیکننده در حال بستن درخواست است و این برچسب احتمالاً بهزودی برداشته میشود.
ابزارهای بازبینی: پیشبارگیری بحث اعلان به نگارنده |
خطای اسکریپتی: پودمان «AfC submission catcheck» وجود ندارد.
This article "پیش پردازش داده ها" is from Wikipedia. The list of its authors can be seen in its historical and/or the page Edithistory:پیش پردازش داده ها. Articles copied from Draft Namespace on Wikipedia could be seen on the Draft Namespace of Wikipedia and not main one.
- ↑ https://www.tableau.com/learn/articles/what-is-data-cleaning
- ↑ https://en.m.wikipedia.org/wiki/Los_Altos,_California
- ↑ https://www.ncbi.nlm.nih.gov/pmc/articles/PMC5721660
- ↑ https://en.m.wikipedia.org/wiki/Doi_(identifier)
- ↑ http://ix.cs.uoregon.edu/~dou/research/papers/icsc15_invited.pdf
- ↑ https://en.m.wikipedia.org/wiki/S2CID_(identifier)
- ↑ https://doi.org/10.1007%2F11946465_24
- ↑ https://doi.org/10.17485%2Fijst%2F2016%2Fv9i10%2F88899
- ↑ https://ieeexplore.ieee.org/document/9140238
- ↑ https://ieeexplore.ieee.org/document/9031710
- ↑ http://ix.cs.uoregon.edu/~dou/research/papers/icsc15_invited.pdf
- ↑ https://cs.uwaterloo.ca/~j3doucet/papers/OntApproachToDataMining.pdf
- ↑ https://onlinelibrary.wiley.com/doi/10.1002/int.22443
- ↑ https://ieeexplore.ieee.org/document/893697