Aa Aa Aa
Aa Aa Aa
Прочитати вголос
Зупинити читання

Data Scientist — хто це такий і чи варто обирати цей фах

Data Scientist — hto ce takyj i čy varto obyraty cej fah

Професію спеціаліста з обробки та дослідження даних — Data Scientist — названо «найсексуальнішою» серед інтелектуалів. Але як ним (чи нею) стати і зрозуміти, чи це твоє?
Profesiju specialista z obrobky ta doslidžennja danyh — Data Scientist — nazvano «najseksuaľnišoju» sered intelektualiv. Ale jak nym (čy neju) staty i zrozumity, čy ce tvoje?
Čytaty latynkoju

Спеціальні можливості

Прочитати вголос
Зупинити читання
Контрастна версія
  Дані скрізь — їх збирають пошуковики, соціальні мережі, різні сервіси навіть відстежують траєкторію вашого переміщення і «читають» приватну переписку. Знаючи, за якими ключовими словами ви шукаєте інформацію в інтернеті та на які сайти заходите, вам легко запропонувати вибір взуття до смаку чи освітній курс, який відповідає вашим інтересам і потребам. Реклама, яку ви бачите у браузері або соцмережі, підлаштована під вас завдяки грамотній обробці даних. HBR називає роботу спеціаліста з обробки даних (або Data Scientist) «найсексуальнішою професією XXI століття». Відділи кадрів різних компаній часто розводять руками й не розуміють, де шукати цих фахівців з відповідною освітою та досвідом роботи. Традиційно, програмісти намагаються потрапити на цю стежину, аби підвищити собі зарплатню й піднятися вгору карєрними «сходами» — а в інтернеті більшає курсів  про те, як «перетворитися» на спеціаліста з обробки даних у найкоротші терміни. То хто ж такі Data Scientists — і чи складно ними стати? — Хто такий Data Scientist? Це — спеціаліст із ґрунтовними знаннями у сфері математичної статистики, програмуванні та у певній сфері застосування цих теоретичних знань на практиці (готельний бізнес, процес прийняття рішень у політиці тощо). Головне — бажання і вміння виявляти найнеочікуваніші закономірності у великому масиві даних на основі статистичних моделей. — Як зрозуміти, чи це ваше покликання? Один із тих, кому вдалося ступити на цей шлях й успішно закріпитися у когорті фахівців із обробки даних, поділився низкою порад з виданням Hackernoon. За його словами, важливо розуміти, що це міждисциплінарна сфера роботи, причому доволі нова. Отже, однією лише теорією з книг і курсами  в інтернеті не обійтися. Діяти слід покроково: Оберіть мову програмування — R чи Python — перша краще підійде для тих, хто технічно не надто підготований, друга — для «технарів». Зрозумійте базові поняття цих мов програмування — типи даних, функції, цикли тощо. Поглиблюйте знання на основі онлайн-курсів на EDX чи Datacamp. Вивчіть основи аналізу даних: це найважливіший, але й найскладніший етап на шляху до становлення профі. Але наявність якісних пакетів та модулів для R та Phyton полегшують цей процес. На даному етапі вам буде корисним знайомство, наприклад, з Jupyter Notebooks — зручним інструментом для створення аналітичних звітів, який дозволяє зберігати код, зображення, коментарі, формули та графіки. Також ознайомтесь із можливостями Rstudio — це середовище для розробки програмного забезпечення з відкритим кодом для мови програмування R, що призначене для статистичної обробки даних та роботи з графікою. Для R це — dplyr, tidyr, stringr, reshape2. Для Python це — Numpy, Pandas. — Що робити коли теорію засвоєно і вивчено основи? Наступний етап — візуалізація даних. Для цього варто ознайомитися з ggplot2, rbokeh для R. Або matplotlib для інтерактивної візуалізації. Ще один важливий елемент — статистика. Для цього, щоб освоїти основні концепції зі статистичної обробки даних можна скористатися наступними курсами: An introduction to statistical learning with applications in R — дає огляд роботи зі статистичними методами аналізу та їх застосуванні за допомогою мови програмування R. Курс підійде й для фахівців не-математичних спеціальностей. Open Intro Statistics — загальний курс із відеоматеріалами, форумами та відповідним програмним забезпеченням, що дозволить засвоїти і зрозуміти основи роботи з даними. Заключний крок — навчитися будувати моделі, які найчастіше використовується при аналізі даних: лінійна регресія, логістична регресія, дерева рішень, метод k-найближчих сусідів, аналіз споживчого кошика тощо.

Дані скрізь — їх збирають пошуковики, соціальні мережі, різні сервіси навіть відстежують траєкторію вашого переміщення і «читають» приватну переписку. Знаючи, за якими ключовими словами ви шукаєте інформацію в інтернеті та на які сайти заходите, вам легко запропонувати вибір взуття до смаку чи освітній курс, який відповідає вашим інтересам і потребам. Реклама, яку ви бачите у браузері або соцмережі, підлаштована під вас завдяки грамотній обробці даних.

HBR називає роботу спеціаліста з обробки даних (або Data Scientist) «найсексуальнішою професією XXI століття». Відділи кадрів різних компаній часто розводять руками й не розуміють, де шукати цих фахівців з відповідною освітою та досвідом роботи. Традиційно, програмісти намагаються потрапити на цю стежину, аби підвищити собі зарплатню й піднятися вгору кар’єрними «сходами» — а в інтернеті більшає курсів  про те, як «перетворитися» на спеціаліста з обробки даних у найкоротші терміни. То хто ж такі Data Scientists — і чи складно ними стати?

— Хто такий Data Scientist?

Це — спеціаліст із ґрунтовними знаннями у сфері математичної статистики, програмуванні та у певній сфері застосування цих теоретичних знань на практиці (готельний бізнес, процес прийняття рішень у політиці тощо). Головне — бажання і вміння виявляти найнеочікуваніші закономірності у великому масиві даних на основі статистичних моделей.

— Як зрозуміти, чи це ваше покликання?

Один із тих, кому вдалося ступити на цей шлях й успішно закріпитися у когорті фахівців із обробки даних, поділився низкою порад з виданням Hackernoon. За його словами, важливо розуміти, що це міждисциплінарна сфера роботи, причому доволі нова. Отже, однією лише теорією з книг і курсами  в інтернеті не обійтися. Діяти слід покроково:

  • Оберіть мову програмування — R чи Python — перша краще підійде для тих, хто технічно не надто підготований, друга — для «технарів».
  • Зрозумійте базові поняття цих мов програмування — типи даних, функції, цикли тощо.
  • Поглиблюйте знання на основі онлайн-курсів на EDX чи Datacamp.
  • Вивчіть основи аналізу даних: це найважливіший, але й найскладніший етап на шляху до становлення профі. Але наявність якісних пакетів та модулів для R та Phyton полегшують цей процес. На даному етапі вам буде корисним знайомство, наприклад, з Jupyter Notebooks — зручним інструментом для створення аналітичних звітів, який дозволяє зберігати код, зображення, коментарі, формули та графіки. Також ознайомтесь із можливостями Rstudio — це середовище для розробки програмного забезпечення з відкритим кодом для мови програмування R, що призначене для статистичної обробки даних та роботи з графікою.

Слід ознайомитися з базовими концепціями обробки даних, які дозволять правильно структурувати дані для подальшого їхнього опрацювання, візуалізації і моделювання.

Для R це — dplyr, tidyr, stringr, reshape2.
Для Python це — Numpy, Pandas.

— Що робити коли теорію засвоєно і вивчено основи?

Наступний етап — візуалізація даних. Для цього варто ознайомитися з ggplot2, rbokeh для R. Або matplotlib для інтерактивної візуалізації.

Ще один важливий елемент — статистика. Для цього, щоб освоїти основні концепції зі статистичної обробки даних можна скористатися наступними курсами:

  • An introduction to statistical learning with applications in R — дає огляд роботи зі статистичними методами аналізу та їх застосуванні за допомогою мови програмування R. Курс підійде й для фахівців не-математичних спеціальностей.
  • Open Intro Statistics — загальний курс із відеоматеріалами, форумами та відповідним програмним забезпеченням, що дозволить засвоїти і зрозуміти основи роботи з даними.

Заключний крок — навчитися будувати моделі, які найчастіше використовується при аналізі даних:

  • лінійна регресія,
  • логістична регресія,
  • дерева рішень,
  • метод k-найближчих сусідів,
  • аналіз споживчого кошика тощо.

Додати коментар

Такий e-mail вже зареєстровано. Скористуйтеся формою входу або введіть інший.

Ви вказали некоректні логін або пароль

Вибачте, для коментування необхідно увійти.

Повідомити про помилку

Текст, який буде надіслано нашим редакторам: