شناسنامه دوره و کارگاه آموزشی «بیگ دیتای کاربردی»
سطح
دوره: تخصصی
مخاطبین
دوره: کارشناسان داده
نوع
دوره: کارگاهی
پیش نیاز:
آشنایی با یکی از زبانهای برنامه نویسی
پایه
مدت
دوره: 40 ساعت
نحوه
برگزاری دوره: ۱۰
جلسه ۴ ساعته
مدرس:
دکتر امین نظارات
هزینه
دوره: ۳ میلیون تومان به ازای هر نفر
محل
برگزاری: شهر یزد
زمان
برگزاری: مرداد و
شهریور ۱۳۹۹
برای دریافت فرم ثبت نام اینجا
کلیک کنید.
معرفی
دوره:
گسترش استفاده از فناوری
اطلاعات در بخش های مختلف کسب و کار، باعث افزایش منبع ارزشمندی
به نام داده شده است. هر چند در گذشته نیز سازمانها این منبع را در
اختیار داشتند، اما حجم، تنوع و سرعت تولید این داده ها به
مراتب کمتر بوده است. علم داده به عنوان علمی کاملا کاربردی می
تواند پاسخی مناسب به این دادههای عظیم تولید شده
باشد. به منظور استفاده از این منابع ارزشمند وجود نیروی ماهر
بسیار ضروری است. متاسفانه اکثر صاحبان صنایع در دنیا از
کمبود نیروی ماهر در این حوزه شکایت دارند.
هدف برگزاری دوره علم داده
و بيگ ديتا، توانمندسازی و تسهیل تصمیمگیری است.
سازمانهایی که بر علم داده سرمایهگذاری میکنند،
میتوانند از شواهد قابل سنجش و مبتنی بر داده برای تصمیمسازی
در کسب و کار خود استفاده کنند. تصمیمهای دادهمحور میتواند
منجر به افزایش سود و بهبود بهرهوری عملیاتی، کارایی
کسب و کار و جریانهای کاری بشود. در سازمانهایی
که با ارباب رجوع سر و کار دارند، علم داده به شناسایی و جلب مخاطبان
هدف کمک میکند. این دانش همچنین میتواند به سازمانها
در استخدام نیروهایشان کمک کند. علم داده با پردازش داخلی
کاربردها و آزمونهای احراز صلاحیت دادهمحور، میتواند به واحد
منابع انسانی سازمانها در انجام انتخابهای صحیحتر و سریعتر
در طول فرآیند استخدام کمک کند.
مخاطبین این
دوره افرادی می باشند که علاقه زیادی به حل
مساله با رویکرد داده محور داشته و حوزه علم داده را به عنوان
حیطه تخصصی برای خود در نظر گرفتهاند و آینده شغلی خود
را متخصص دیتا ساینس میبینند. پیش بینی فرایندها،
تحلیل سری زمانی، متن کاوی، تحلیل شبکههای
اجتماعی و یادگیری عمیق از جمله مسائلی هستند که در این حوزه مطرح می
باشند.
متخصصین علوم داده و دیتا
ساینس می توانند با استفاده از متدهای یادگیری
ماشین با ناظر و بدون ناظر، به دانش پنهان موجود در دادهها دست یابند
و آن را آشکار سازند. آموزش مدل های ریاضی به آنها این
امکان را می دهد تا بتوانند الگوها را شناسائی کرده و به پیش بینی
دقیقتری از آینده برسند. به نوعی می توان گفت که یک
دانشمند داده، متخصص آماری است که بیشتر از یک آماری کامپیوتر
میداند و متخصص کامپیوتری است که بیشتر از یک کامپیوتری
به آمار مسلط است.
هادوپ و اسپارک، ابزارهای
مهم متنباز برای ذخیره و پردازش دادههای عظیم به صورت
توزیعشده هستند. در حال حاضر، خانوادهای از فناوریها در
اطراف هادوپ شکل گرفتهاند و امکانات مختلفی را در زمینه دادههای
عظیم ارائه میکنند. این خانواده که به اکوسیستم
هادوپ معروف
هستند، در کنار هم امکاناتی کارا و مقیاسپذیر برای ذخیره
سریع، بازیابی با بار زیاد و پردازش توزیعشده را
فراهم میسازند. در این دوره، مخطبان با فناوری هادوپ و اسپارک و امکانات پیرامون
آن آشنا میشوند و به صورت عملی یک سناریوی فرضی
ذخیره و پردازشی با کمک هادوپ پیادهسازی میشود.
همچنین با کاربردها و ابزارهای جدید این خانواده و جایگاه
آنها آشنا میشویم و بایدها و نبایدهای استفاده صحیح
از این فناوریها را در چارچوب بیان تجارب موفق مرور میکنیم.
رئوس مطالبی که طی این دوره
ارائه می شود به شرح زیر می باشد:
مبانی
یادگیری ماشینی
مقدمهای بر یادگیری ماشینی
یادگیری با نظارت، طبقهبندی با
استفاده از الگوریتم KNN، روشهای مختلف محاسبه فاصله،
درخت تصمیم، مسئله تقریب تابع
یادگیری بینظارت، خوشهبندی
با استفاده از K-Means،
خوشهبندی سلسله مراتبی
کاهش ابعاد، آشنایی با PCA، آشنایی با SVD
ماشین بردار پشتیبانی
نحوه ارزیابی مدل، مفهوم بیشبرازش و زیربرازش
معیارهای ارزیابی، دقت، یادآوری،
صحت، ROC،
ماتریس برخورد
کلیات و مفاهیم پایه در یادگیری
ماشین
تعاریف
o
یادگیری
تحت نظارت
o
یادگیری
بدون نظارت
دسته بندی (Classification)
خوشه بندی (Clustering)
o
تکنیک های
محاسبه فاصله بین انواع ویژگی ها
o
روش خوشه بندی K-Means
o
روش خوشه بندی K-Medoids
o
روش های خوشه بندی
سلسله مراتبی (Hierarchical)
o
شاخص های ارزیابی
فرآیند خوشه بندی
مرور روش های کلاسیک در یادگیری
ماشین
o
یادگیری
مبتنی بر نمونه ها Learning
based-Instance
o
یادگیری
مبتنی بر قواعد Learning
based-Rule
o
یادگیری
مبتنی بر نظریه احتمالات (Bayesian Learning)
o
درخت تصمیم
§
الگوریتم ID3
§
الگوریتم C4.5
ترکیب دسته بندها (Combining Classifiers)
o
روش Bagging
o
روش Boosting
o
روش AdaBoost
یادگیری تقویتی Reinforcement Learning
o
معرفی مفاهیم
پایه (Agent, Action, Policy,…)
o
روش های انتخاب
کنش
o
روش برنامه ریزی
پویا
o
روش تقویتی
مونت کارلو
مبانی بیگ دیتا
معرفی Big
Data و ویژگیهای
آن
نحوه
ی ارزش آفرینی Big Data
مثالهایی
از کاربردهای موفق Big
Data
منابع
تولید Big Data و ساختار دادههای تولید شده
نگرانیها
و چالشهای اصلی در مواجهه با Big Data
معرفی
مدلهای برنامهنویسی و پردازش توزیع شده
آشنایی با
اجزای تشکیل دهنده Hadoop شامل HDFS و MapReduce
آموزش تنظیم محیط
برنامه نویسی هادوپ
آموزش کارکردن با فایل
سیستم هادوپ
آموزش ایجاد کردن
محیط لازم برای کار بر روی هادوپ
آموزش اجرا و دنبال
کردن Job های هادوپ
آموزش بهینه سازی
MapReduce
آموزش کار با Hive و HBase
آشنایی با Spark
و آموزش کار با آن
آشنایی با
کتابخانه یادگیری ماشین در اسپارک شامل MLlib
آموزش مصور سازی
داده های خروجی گرفته شده از هادوپ
بررسی مباحث پیش
رفته در ایجاد و تعامل با RDD
کار
با Spark SQL
اتصال
اسپارک به دیتابیس
معرفی، ایجاد
و کار با DataFrame
معرفی و کار با Dataset
معرفی MLlib جهت انجام فرایند های یادگیری ماشینی
در اسپارک
توسعه و اجرای
روال های تحلیل آماری
توسعه و اجرای
الگوریتم های یادگیری ماشینی در اسپارک
معرفی Spark Streaming
توسعه و استفاده از
اسپارک برای پردازش جریان داده ای
مقایسه اسپارک و
سایر سکوهای پردازش جریان داده ای
نحوه ی استفاده
از اسپارک و کامپوننت های آن در انجام سناریو های مختلف پالایش
و تحلیل داده
آشنایی
و ساخت انباره داده در Spark
Delta Lake
تعریف Cluster Sizing
بررسی بهترین
شیوه ها (Best Practice) در طرح ریزی ایجاد یک کلاستر هادوپ
ملاحظات یک طرح ریزی
مناسب
نیازسنجی
در زمینه حجم داده و میزان درخواست های پردازشی و تحیلی
مثال و مشخصات
Storage/HDD مورد نیاز
برای نیازسنجی انجام شده و ملاحظات آن
نحوه تخصیص منابع RAM و CPU مورد نیاز و ملاحظاتی که باید در نظر گرفت
سایر منابع مورد
نیاز و بهترین شیوه های تقسیم بندی منابع در
ایجاد یک کلاستر
انجام محاسبات و جزئیات
کلاستربندی و مقدار دهی پارامترهای هر چارچوب در کلاستر هادوپ
نصب و راه اندازی
کلاستر Hadoop
نصب و راه اندازی
کلاستر Spark
منابع:
·
Hadoop-
The Definitive Guide, 4th Edition-2015
·
Advanced
Analytics with Spark-Patterns for Learning from Data
· Machine Learning with Spark Create scalable machine learning applications to power a modern data-driven business using Spark