Организаторы:

Переведите специализацию
«Наука о данных» вместе с IBS

Друзья, мы предлагаем вам принять участие в переводе специализации «Наука о данных» (Data Science), которая открывает дверь в мир самых перспективных профессий и важных задач XXI века.

В процессе перевода вы познакомитесь с ключевыми методами и инструментами, которые будут нужны на всем протяжении цикла работы с данными: от создания различных типов запросов до получения выводов и публикации результатов.

Специализация содержит 9 курсов:

Курсы постепенно усложняются и перекликаются с предыдущими, поэтому мы будем выкладывать их последовательно и рекомендуем переводить так же — курс за курсом.

Надеемся, что совместными усилиями мы сможем перевести все 6 курсов до конца 2015 года. Все переведенные курсы будут вычитаны и отредактированы экспертами из компании IBS.

Почему очень важно перевести специальность Data Science на русский язык

Три первых курса специальности уже переведены силами IBS и ABBYY Language Services и доступны на Coursera.org. Они пользуются большой популярностью среди самых разных людей: от студентов до профессионалов, расширяющих свои возможности. Именно поэтому совместно с IBS мы создали специальный проект по переводу на русский язык оставшихся 6 курсов. Важно понимать, что данная специальность становится, пожалуй, первым современным источником для системного изучения науки о данных на русском языке. Это помогает создать в России новую профессиональную среду и способствует формированию современной экономики, основанной на пользе, извлекаемой из огромного массива доступных нам данных.

Почему компания IBS решила поддержать перевод данных курсов?

«Когда стартовал проект по переводу материалов Coursera на русский язык, мы горячо поддержали эту идею по многим причинам, — говорит Сергей Мацоцкий, председатель правления компании IBS. — В том числе потому, что отрасль ИТ, в которой мы работаем, развивается сегодня невероятно быстро. По большинству нужных нам областей знаний учебники еще просто не написаны! Единственный путь добиться успеха в современных ИТ — это постоянный обмен знаниями и опытом, а также изучение всех доступных источников. Coursera предлагает платформу для глобального обмена знаниями, а мы, участвуя в проекте перевода, делаем эти знания еще более доступными для всех».

Сергей Мацоцкий, IBS

Курсы

На текущий момент уже переведены и выложены:

В этом курсе вы получите представление о главных инструментах в арсенале исследователя. Курс предлагает обзор данных, вопросов и идей, с которыми работают ученые и аналитики. Он состоит из двух разделов. Первый — теория о превращении данных в полезные знания. Второй — практическое ознакомление с инструментами, которые будут использоваться в программе: контроль версий, снижение оценки, git, GitHub, R и RStudio.

В этом курсе вы узнаете, как программировать на языке R, как использовать R для эффективного анализа данных, как установить и настроить программное обеспечение среды, необходимой для статистического программирования, и описать общие понятия языков программирования и их реализацию в статистическом языке высокого уровня. Курс охватывает практические вопросы статистических расчетов, включающие программирование в R, чтение данных в R, доступ к R-пакетам, написание функций R, отладку, профилирование R-кода, организацию и комментирование R-кода.

Прежде чем начать работать с данными, вы должны их получить. Этот курс знакомит с основными способами получения данных, включая такие источники, как Интернет, API, базы данных. Он также охватывает основы очистки и упорядочения. Чистые данные значительно ускоряют решение задач по анализу данных. Помимо этого, курс включает компоненты полного набора данных, в том числе исходные данные, инструкции по их обработке, кодовые книги и обработанные данные. Также он охватывает основы, необходимые для сбора, очистки данных и обмена ими.

Вы можете присоединиться к переводу следующих курсов:

Этот курс посвящен основным разведочным методам обобщения данных. Такие методы, как правило, применяются перед началом формального моделирования и могут предоставить информацию для разработки более сложных статистических моделей. Разведочные методы также важны для исключения или уточнения потенциальных гипотез о мире, которые могут рассматриваться с помощью данных. Мы подробно остановимся на построении системных диаграмм на языке R, а также некоторых основных принципах графической обработки данных. Кроме того, расскажем о некоторых общих многомерных статистических методах, которые используются для визуализации данных высокой размерности.

Этот курс посвящен концепциям и инструментам, необходимым для современного анализа данных воспроизводимым способом. Воспроизводимое исследование базируется на том факте, что анализ данных, а в более общем представлении — научные патентные формулы, публикуются со своими данными и программным кодом, чтобы другие исследователи могли проверить результаты и опираться на них. Сегодня необходимость в воспроизводимости резко возрастает, поскольку анализ данных постоянно усложняется и требует использования все больших объемов данных и комплексных вычислений. Воспроизводимость позволяет сосредоточиться на фактическом содержании анализа данных, а не на маловажных деталях, представленных в письменном резюме. Кроме того, воспроизводимость делает анализ полезным для других исследователей, потому что данные и код, по которым фактически проведен анализ, становятся легко доступными. Этот курс предназначен для изучения полезных инструментов статистического анализа, с помощью которых можно представить данные анализа в виде единого документа, что, в свою очередь, позволяет другим аналитикам легко выполнить тот же анализ, чтобы получить аналогичные результаты.

Статистические методы — это процесс, позволяющий получить из данных выводы о популяции или научных истинах. Существует множество видов получения выводов, в том числе статистическое моделирование, стратегии, ориентированные на данные, и определенное использование конструкций и рандомизации в анализе. Кроме того, при получении выводов используются различные теории (частотная, Байеса, вероятностная, основанная на дизайне и т. д.), и наблюдаются многочисленные сложности (недостающие данные, наблюдаемые и ненаблюдаемые, искажения данных). Исследователь зачастую оказывается в утомительном лабиринте методов, философий и нюансов. Этот курс представляет собой основы практического подхода к получению результата. После прохождения курса студенты будут понимать общие направления статистического вывода и использовать эту информацию для принятия обоснованных решений в анализе данных.

Как следует из названия, линейные модели относятся к набору предикатов, используемых в линейных приближениях. Регрессионные модели (подмножество линейных моделей) являются самым важным инструментом статистического анализа для исследователя. Этот курс охватывает регрессионный анализ, метод наименьших квадратов и модели логического вывода с использованием регрессии. Здесь также рассматриваются особые случаи регрессионной модели ANOVA и ANCOVA, исследуется анализ остатков и вариационный размах.

Одним из наиболее распространенных заданий, которые выполняют ученые и аналитики данных, является прогнозирование и машинное обучение. Этот курс посвящен основным компонентам построения и применения функций прогнозирования, акцент сделан на практическое применение. Курс обеспечит базовую подготовку в таких областях, как обучение и наборы тестов, переобучение и оценка ошибок. Он также знакомит с модельным рядом, основанным на алгоритмических методах машинного обучения, включая регрессии, деревья классификации, наивный байесовский классификатор и случайный лес. Курс охватывает весь процесс построения функций прогнозирования, включая сбор данных, создание «гвоздя программы», алгоритмов и оценки.

Информационный продукт является результатом статистического анализа. Информационные продукты автоматизируют сложные задачи анализа или используют технологии для расширения полезной информационной модели, алгоритма или логического вывода. Этот курс охватывает основы создания информационных продуктов с помощью Shiny, R пакетов и интерактивных графиков. Основное внимание уделяется статистическим основам создания информационного продукта, который можно использовать, чтобы рассказать историю данных массовой аудитории.