Dani skriźGolovni trendy štučnogo intelektu, velykyh danyh ta IoT u 2017 roci — їh zbyrajuť pošukovyky, sociaľni mereži, rizni servisy naviť vidstežujuť trajektoriju vašogo peremiščennja i «čytajuť» pryvatnu perepysku. Znajučy, za jakymy ključovymy slovamy vy šukajete informaciju v interneti ta na jaki sajty zahodyte, vam legko zaproponuvaty vybir vzuttja do smaku čy osvitnij kursAnatolij Popeľ, CASES: «Zaraz Ukraїna — ce duže cikavyj rynok», jakyj vidpovidaje vašym interesam i potrebam. Reklama, jaku vy bačyte u brauzeri abo socmereži, pidlaštovana pid vasGoogle rozšyryv možlyvosti pošuku i dodav knopku zavdjaky gramotnij obrobci danyh.
HBR nazyvaje robotu specialista z obrobky danyh (abo Data Scientist) «najseksuaľnišoju profesijeju XXI stolittja». Viddily kadriv riznyh kompanij často rozvodjať rukamy j ne rozumijuť, de šukaty cyh fahivciv z vidpovidnoju osvitoju ta dosvidom roboty. Tradycijno, programisty namagajuťsja potrapyty na cju stežynu, aby pidvyščyty sobi zarplatnju j pidnjatysja vgoru kar’jernymy «shodamy» — a v interneti biľšaje kursiv pro te, jak «peretvorytysja» na specialista z obrobky danyh u najkorotši terminy. To hto ž taki Data Scientists — i čy skladno nymy staty?
— Hto takyj Data Scientist?
Ce — specialist iz ğruntovnymy znannjamy u sferi matematyčnoї statystyky, programuvanni ta u pevnij sferi zastosuvannja cyh teoretyčnyh znań na praktyci (goteľnyj biznes, proces pryjnjattja rišeń u polityci toščo). Golovne — bažannja i vminnja vyjavljaty najneočikuvaniši zakonomirnosti u velykomu masyvi danyh na osnovi statystyčnyh modelej.
— Jak zrozumity, čy ce vaše poklykannja?
Odyn iz tyh, komu vdalosja stupyty na cej šljah j uspišno zakripytysja u kogorti fahivciv iz obrobky danyh, podilyvsja nyzkoju porad z vydannjam Hackernoon. Za jogo slovamy, važlyvo rozumity, ščo ce miždyscyplinarna sfera roboty, pryčomu dovoli nova. Otže, odnijeju lyše teorijeju z knyg i kursamy v interneti ne obijtysja. Dijaty slid pokrokovo:
- Oberiť movu programuvannja — R čy Python — perša krašče pidijde dlja tyh, hto tehnično ne nadto pidgotovanyj, druga — dlja «tehnariv».
- Zrozumijte bazovi ponjattja cyh mov programuvannja — typy danyh, funkciї, cykly toščo.
- Poglybljujte znannja na osnovi onlajn-kursiv na EDX čy Datacamp.
- Vyvčiť osnovy analizu danyh: ce najvažlyvišyj, ale j najskladnišyj etap na šljahu do stanovlennja profi. Ale najavnisť jakisnyh paketiv ta moduliv dlja R ta Phyton polegšujuť cej proces. Na danomu etapi vam bude korysnym znajomstvo, napryklad, z Jupyter Notebooks — zručnym instrumentom dlja stvorennja analityčnyh zvitiv, jakyj dozvoljaje zberigaty kod, zobražennja, komentari, formuly ta grafiky. Takož oznajomteś iz možlyvostjamy Rstudio — ce seredovyšče dlja rozrobky programnogo zabezpečennja z vidkrytym kodom dlja movy programuvannja R, ščo pryznačene dlja statystyčnoї obrobky danyh ta roboty z grafikoju.
Slid oznajomytysja z bazovymy koncepcijamy obrobky danyh, jaki dozvoljať pravyľno strukturuvaty dani dlja podaľšogo їhńogo opracjuvannja, vizualizaciї i modeljuvannja.
Dlja R ce — dplyr, tidyr, stringr, reshape2.
Dlja Python ce — Numpy, Pandas.
— Ščo robyty koly teoriju zasvojeno i vyvčeno osnovy?
Nastupnyj etap — vizualizacija danyh. Dlja ćogo varto oznajomytysja z ggplot2, rbokeh dlja R. Abo matplotlib dlja interaktyvnoї vizualizaciї.
Šče odyn važlyvyj element — statystyka. Dlja ćogo, ščob osvoїty osnovni koncepciї zi statystyčnoї obrobky danyh možna skorystatysja nastupnymy kursamy:
- An introduction to statistical learning with applications in R — daje ogljad roboty zi statystyčnymy metodamy analizu ta їh zastosuvanni za dopomogoju movy programuvannja R. Kurs pidijde j dlja fahivciv ne-matematyčnyh speciaľnostej.
- Open Intro Statistics — zagaľnyj kurs iz videomaterialamy, forumamy ta vidpovidnym programnym zabezpečennjam, ščo dozvolyť zasvoїty i zrozumity osnovy roboty z danymy.
Zaključnyj krok — navčytysja buduvaty modeli, jaki najčastiše vykorystovujeťsja pry analizi danyh:
- linijna regresija,
- logistyčna regresija,
- dereva rišeń,
- metod k-najblyžčyh susidiv,
- analiz spožyvčogo košyka toščo.