در دنیای امروز داده (Data) ارزشی به اندازه نفت (Data = Oil) یافته است. با توجه روند سیل آسا و انبوه تولید داده درباره هرچیزی، در هر زمان و مکانی، نیاز به تجزیه و تحلیل این داده ها، باعث به وجود آمدن زمینه ای جدید به نام علم داده (Data Science) شده است. مشابه نفت، کار با داده نیازمند فرآیندی است که شامل: کشف (Exploration) و استخراج (Extraction) داده، و تبدیل (Transform)، انبار کردن (Storage)، انتقال دادن (Transport)، و استفاده (Usage) کردن از آن است. ارزش تجزیه و تحلیل داده به حدی است که بسیاری، متخصصان علم داده را "مهندسان آینده" می دانند.

علم داده، حوزه بین رشته ای است که در آن متخصص علم داده، علاوه بر تسلط بر روش های تحلیلی و آماری، نیاز به دانش درباره علوم رفتاری و اجتماعی (برای فهم رفتار و اخلاق انسان ها)، مهندسی صنایع (ارزش گذاری داده ها و آشنایی با مدل ها و الگوریتم ها و ...) و خلاقیت برای یافتن راه حل ها با استفاده از فناوری اطلاعات (IT) دارد. هدف علم داده، استفاده از منابع برای پاسخگویی به 4 دسته از پرسش هاست.

- گزارش کردن (Reporting): چه چیزی اتفاق افتاده؟
- عیب یابی (Diagnosis): چرا اتفاق افتاد؟
- پیش بینی (Prediction): چه چیزی اتفاق خواهد افتاد؟
- پیشنهاد (Recommendation): بهترین چیزی که می تواند اتفاق بیفتد، چیست؟

پیشنیاز مطالعه و ورود به این مبحث تسلط بر دروس آمار مهندسی، جبر خطی، تئوری احتمالات و کاربرد آن، و ریاضی است. به نظر می رسد برای طرح این مباحث مقدماتی به 4 تا 6 واحد درسی نیاز باشد.

منابع آموزشی:

1. Data Science for Business Written by Foster Provost, Tom Fawcett From O'Reilly Media.

2. Pattern Recognition and Machine Learning Written by Christopher M. Bishop From Springer.

3. Practical Data Science with R Written by Nina Zumel, John Mount, Jim Porzak From Manning.

4. An Introduction to Statistical Learning (with Applications in R) Written by Gareth James, Daniela Witten, Trevor Hastie, Robert Tibshirani From Springer.