Многие считают, что сейчас профессия Data Scientist является одной из самых, привлекательных, перспективных и высокооплачиваемых. Все крупные компании уже создали отделы по обработке собственных данных и прямо на глазах превращаются в дата-ориентированные (Data-driven) организации, которым требуется всё больше специалистов по данным.
Чтобы стать востребованным специалистом в этой области — потребуются хорошие знания программирования, математической статистики и машинного обучения. Нужные знания и навыки можно получить в некоторых университетах, попробовать прокачать самостоятельно или получить на различных курсах — например, на курсе специализации Data Scientist в онлайн-школе SkillFactory, где за 12 месяцев можно с нуля освоить эту интересную профессию.
Выбор такого специализированного курса позволяет учащемуся пройти полный цикл обучения: от изучения языка Python для анализа данных и классического машинного обучения — до самого увлекательного и востребованного направления в области машинного обучения — нейронных сетей и глубокого обучения (Deep Learning).
Путь Data Scientist — долгий и желающим учиться нужно приготовиться пройти его от начального «я ничего не знаю» до момента, когда можно будет уверенно сказать: «я решаю задачи по машинному обучению и знаю, где это применить и как развиваться дальше».
Но что же такое Data Science?
Упоминания о Data Science (наука о данных) сейчас звучат из каждого утюга. Наверное, что-нибудь об этом слышали все читающие эти строки.
Но что это такое?
Кто-то говорит, что это очередное модное словечко (buzzword), которое стало настолько вездесущим и расплывчатым, что потеряло всякий смысл.
Есть и такие утверждения, что Data Science — это всего лишь маркетинговый термин (что-то вроде пресловутого Big Data), который подменил собой обычную статистику, как Машинное обучение (Machine learning) подменило собой Извлечение информации (Data Mining).
Термин действительно стал использоваться настолько широко, что стал объектом мемов и разных шуток, вроде:
«Специалист по данным (data scientist) — это статистик, который живет в Сан-Франциско»,
«Data Science — это статистика на Mac»,
«Специалист по данным — это тот, кто лучше в статистике, чем программист, и лучше в программировании, чем статистик».
Так что же такое Data Science?
На самом деле, Data Science — это способ думать и работать с данными. Это использование научного подхода для работы с данными. Всё остальное — программирование, статистика, машинное обучение, нейронные сети — всего лишь инструменты.
Хорошим примером популярности науки о данных является график количества поисковых запросов, который можно увидеть на Google Trends.
Данные — это «электричество»
Andrew Ng считает, что искусственный интеллект — это новое электричество, но на самом деле, «электричество» — это данные, которые теперь везде собираются и используются для самых разных целей. В том числе и для обучения искусственного интеллекта.
Мы уже давно привыкли к наличию тока в розетках и поэтому не уделяем внимания самому электричеству, а только тем устройствам, которые оно питает.
Для подобных случаев есть специальный термин — коммодитизация (commoditization) товаров/услуг/технологий, когда продукт из какой-то марочной категории, переходит в категорию рядовых продуктов (commodity). Так произошло со многими услугами и товарами: компьютеры, автомобили, мобильные телефоны — сейчас они стали сравнимы по характеристикам и мы воспринимаем их как должное. Ещё раньше люди стали также воспринимать электричество, а теперь то же самое произошло и с данными. Их использование стало нормой. Поэтому, теперь люди сосредотачиваются на следующих новшествах, которые станут возможны, благодаря доступности данных.
Data Science распадается на прикладные задачи: распознавание изображений, распознавание речи, обработка естественного языка и т.д. Именно решение конкретных и сфокусированных задач позволяет самым разным компаниям добиваться оптимизации прибыли, сокращения затрат, увеличения выручки и операционной целесообразности. Наука о данных становится обобщённым термином, так как специалисты по данным сосредотачиваются на решении задач в конкретных прикладных областях.
Возможно, через несколько лет термин Data Science прекратит своё существование. Так же, как уходит термин «облачные вычисления», который заменяется конкретными применениями, так и наука о данных уступит своё место новым названиям конкретных технологий и применений.
В одном можно не сомневаться — само использование данных для обучения алгоритмов машинного обучения и систем искусственного интеллекта плотно займёт свою нишу в самых разных продуктах и технологиях.
Ссылки
Специализация Data Scientist
Data Science Has Become Too Vague
По теме
Выступление Андрея Себранта о бизнесе в мире самообучающихся машин
Как применять искусственный интеллект в бизнесе
Особенности применения машинного обучения в промышленности, индустрии моды и банковских услугах
Проблемы применения машинного обучения для решения реальных задач
Глубокие нейронные сети как следующий этап развития программного обеспечения