دوره “Applied Text Mining in Python” به دانشجویان فرصتی میدهد تا با مبانی استخراج متن و دستکاری آن آشنا شوند. در آغاز این دوره، دانشجویان به درک عمیقتری از نحوهی مدیریت متن در زبان برنامهنویسی پایتون دست خواهند یافت.
این بخش شامل بررسی ساختار متن از دیدگاه ماشین و انسان است که میتواند به درک بهتر تعاملات بین دادههای متنی و الگوریتمهای پردازش کمک کند. همچنین، دانشجویان با فریمورک nltk که ابزاری کلیدی برای دستکاری متن محسوب میشود، آشنا خواهند شد. این فریمورک امکانات متنوعی را برای تجزیه و تحلیل و پردازش متن در اختیار کاربران قرار میدهد.
در فصل دوم، دوره به بررسی نیازهای معمول در دستکاری متن میپردازد، که شامل استفاده از عبارات منظم برای جستجو در متن، پاکسازی دادههای متنی و آمادهسازی آنها برای استفاده در فرآیندهای یادگیری ماشین است.
در فصل سوم، دانشجویان با روشهای پایهای پردازش زبان طبیعی آشنا خواهند شد و یاد خواهند گرفت که چگونه میتوانند متنها را طبقهبندی کنند. در نهایت، در فصل آخر دوره، مباحث پیشرفتهتری درباره شناسایی موضوعات موجود در اسناد و گروهبندی آنها بر اساس شباهت (مدلسازی موضوع) مطرح خواهد شد.
این مهارتها به دانشجویان کمک میکند تا بتوانند در پروژههای خود از تکنیکهای مؤثر برای استخراج معنا و اطلاعات از دادههای متنی استفاده کنند.
V. G. Vinod Vydiswaran استادیار علوم یادگیری سلامت در دانشکده پزشکی و همچنین استادیار اطلاعات در دانشکده اطلاعات دانشگاه میشیگان است. علایق پژوهشی او عمدتاً در زمینههای اعتماد به اطلاعات، استخراج و تحلیل متن در مقیاس بزرگ و پردازش زبان طبیعی متمرکز است. علاوه بر این، او به دادهکاوی، استخراج اطلاعات، یادگیری ماشین، ساخت سیستمهای یادگیری سلامت و کار بر روی برنامههای جالب مدلهای الگوریتمی برای مواجهه با چالشهای واقعی علاقهمند است.
تحقیقات کنونی او بر روی استخراج و تحلیل اطلاعات سلامت از منابع مختلف، از جمله ادبیات علمی، فرومهای سلامت اجتماعی و شبکههای اجتماعی و اطلاعات متمرکز است. او بهطور خاص به تحلیل اطلاعات متنی پزشکی آنلاین برای استنتاج اعتبار منابع و ادعاهایی که مطرح میکنند، علاقمند است. از طریق کارهای خود، او به دنبال کمک به درک و کاربرد اطلاعات قابل اعتماد در حوزه سلامت است و در نهایت به بهبود نتایج سلامت از طریق تصمیمگیریهای آگاهانه کمک میکند.
نقد و بررسیها
هنوز بررسیای ثبت نشده است.