متنکاوی یا تحلیل متن به ما فرایند استخراج اطلاعات باکیفیت از یک متن را آموزش میدهد. متنکاوی میتواند برروی وبسایتها، کتابها، ایمیلها، بازخوردهای کاربران و یا مقالات اعمال شود. متنکاوی معمولا شامل ساختاربندی متن ورودی و کشف الگوهایی در داده ساختاریافته است.
جستجو در متن یکی از کارهایی است که بهویژه در متنهای بلند نیازمند روشهای کاراتر است. در این سلسله ویدئوها به فراخور نوع متن مورد استفاده روشهای متفاوتی معرفی خواهند شد.، در ابتدا از ابزارهای موجود در سیستم عامل (لینوکس) بهره خواهیم برد، سپس کار با نرم افزار نتپد پلاس را یاد خواهیم گرفت، در پایان به معرفی زبان برنامهنویسی پرل خواهیم پرداخت. این زبان به طور اختصاصی برای متن کاوی ساخته شده و در این کار نسبت به سایر زبانها از سرعت بیشتری برخوردار است.
در خلال این درس با عبارتهای قاعدهمند آشنا خواهیم شد، عبارتهای قاعدهمند بهنوعی شاهکلید کار در متنکاوی محسوب میشوند. عبارات قاعدهمند در اکثر زبانهای برنامهنویسی با تغییرات اندکی قابل استفاده هستند و نوع عبارات مورد استفاده در این درس راه را برای استفاده آن در دیگر زبانهایی که کاربر در آینده با آن برخورد خواهد داشت باز خواهند نمود.
***این دوره در پاییز 99 ضبط شدهاست***
سید جواد کاظمی تبار برنده مدال نقره کشوری در المپیاد سال ۱۳۷۷ و نفر سوم کنکور سراسری در سال ۱۳۷۸، مدارک کارشناسی و دکتری خود را در رشته برق و کامپیوتر به ترتیب در دانشگاه صنعتی شریف (۱۳۸۲) و دانشگاه کالیفرنیا در شهر ارواین (۱۳۸۷) دریافت نمود. وی در سال ۱۳۹۱ و به هنگام کار در شرکت Guardian Analytics با روشهای دادهکاوی در کشف تقلبهای بانکی آشنا گردید. در همان شرکت بود که وی موفق به اخذ گواهینامه امنیت +Comptia Security گردید. مطالعه کتابها و دورههای انجمن بازرسان تقلب گواهی شده وی را با انواع تقلب در صنایع بیمه، بانک و بورس اوراق بهادار آشنا نمود. وی پس از بازگشت به ایران و از سال ۱۳۹۴ عضو هیئتعلمی دانشگاه و مشاور شرکتهای نرمافزاری همچون توسن و سان بوده است.
نقد و بررسیها
هنوز بررسیای ثبت نشده است.