Zastanawiasz się, jak zostać programistą, a jednocześnie nie ograniczać się tylko do etatowej pracy nad kolejnymi projektami? A może szukasz pomysłu, jak poszerzyć swoje programistyczne horyzonty? Wiele wskazuje na to, że odpowiedzą dla ciebie może być Data Science.
Co to jest Data Science? Nazywana po polsku danologią, Data Science to interdyscyplinarna dziedzina zajmująca się analizą danych na bardziej zaawansowanym poziomie niż statystyka lub obliczenia w Excelu. W przeciwieństwie do tych dwóch Data Science korzysta z większego zestawu narzędzi, takich jak uczenie maszynowe (Machine Learning), sieci neuronowe, analiza dużych baz danych (Big Data) oraz oczywiście z programowania.
Data Science zajmuje się pozyskiwaniem, obrabianiem, wizualizowaniem i wyciąganiem wniosków z analizy danych ustrukturyzowanych i nieustrukturyzowanych.
Specjalista Data Science powinien posiadać kompetencje techniczne, takie jak podstawowa znajomość analizy statystycznej i matematyki oraz odpowiednich języków programowania.
W tej interdyscyplinarnej dziedzinie wymagane są także kompetencje miękkie. Zaliczają się do nich umiejętność komunikacji, wizualizacji, podejmowania decyzji i rozwiązywania złożonych problemów.
Gdzie używa się Data Science?
Jeśli sam termin Data Science brzmi dla ciebie egzotycznie, warto zacząć oswajać się z tym terminem, zwłaszcza w kontekście kariery programisty. Danologia może bowiem dotyczyć każdej sfery życia, w jakiej wytwarzamy dane – a obecnie bez przesady można powiedzieć, że cokolwiek robimy, zostawiamy w sieci nasz cyfrowy ślad.
Pierwsze zastosowania Data Science mogą więc kojarzyć ci się z analizą aktywności w mediach społecznościowych, zachowań społecznych czy nawet zwyczajów zakupowych. Uważna analiza zgromadzonych danych pozwala na opracowanie skuteczniejszych algorytmów proponujących określone treści czy produkty.
Obecnie Data Science wykorzystuje się jednak najczęściej w badaniach akademickich, w sektorze medycznym, rozwoju technologii i w usługach bankowych. Przykładem może być zastosowanie danologii do stworzenia mechanizmów, które rozpoznają złośliwe zmiany skórne prowadzące do nowotworów, o czym opowiadał Piotr Migdał dla INN:Poland.
Języki programowania Data Science – jak wybrać najlepszy?
Obecnie skodyfikowanych jest ponad 250 języków programowania, dlatego wybór jednego, od którego zaczniesz naukę z myślą o karierze w Data Science w pierwszej chwili może przyprawiać o zawrót głowy.
Niektóre języki lepiej sprawdzają w pisaniu gier, inne są niezastąpione w pisaniu oprogramowania, a jeszcze inne wybierane są przez tych programistów, którzy w swojej pracy potrzebują narzędzi do wyciągania wartości z dużych zespołów danych.
Aby zajmować się Data Science, potrzebujesz znajomości przynajmniej jednego języka programowania; dwa dadzą ci oczywiście większe możliwości. Wybierając język, w jakim chcesz się specjalizować, warto zadać sobie cztery pytania:
- Z jakiego języka korzystają branże, w których chcesz szukać zleceń pracy zdalnej?
Z odpowiedzi udzielonych przez użytkowników StackOverflow w 2017 roku wynika, że język R jest bardziej popularny w opiece zdrowotnej, obsłudze projektów rządowych i administracyjnych oraz w ubezpieczeniach, podczas gdy Python wybierany jest częściej w takich dziedzinach, jak elektronika, procesy produkcji, technika, media czy finanse. Oba języki są równie popularne w badaniach naukowych. - Jaki jest rozmiar projektów, które chcesz realizować?
R sprawdzi się w rozwiązywaniu problemów statystycznych, które wymagają wizualizacji lub prezentacji w postaci wykresów na przykład na potrzeby komercyjnych analiz. Z kolei jeśli twoim celem w Data Science jest przygotowywanie algorytmów do uczenia maszynowego, lepszym wyborem będzie Python. - Jakie masz doświadczenie?
Data Science wymaga podstawowej znajomości zagadnień związanych ze statystyką i matematyką, dlatego jeśli twoja wiedza w tym zakresie jest niewielka, zacznij od Pythona, który dzięki bibliotekom pomoże ci zakodować fragmenty algorytmów. - Ile masz czasu na naukę?
Jeśli zależy ci na czasie, R sprawdzi się do napisania prostego modelu statystycznego z użyciem jego bibliotek. Z kolei jeśli możesz i chcesz zainwestować więcej czasu w naukę metod analizy zestawów danych i obsługi bibliotek.
6 najpopularniejszych języków programowania Data Science
Jak możesz się już domyślać, wśród popularnych języków programowania używanych w Data Science dominują Python i R. Nie są to jednak jedyne możliwości, jakie daje ci ta interdyscyplinarna specjalizacja. Przyjrzyjmy się cechom innych języków, które warto brać pod uwagę przy nauce Data Science.
Języki programowania Data Science – Python
Python jest często nazywany najłatwiejszym i najszybszym do nauki językiem programowania. Pierwsze miejsce na naszej liście zawdzięcza jednak nie łatwości nauki, ale popularności wśród programistów Data Science.
Jego dużą zaletą jest to, że łatwo połączyć go z algorytmami napisanymi w bardziej złożonych językach, na przykład w C.
Języki programowania Data Science – R
R to język opensource’owy i środowisko software’owe dedykowane do obliczeń i analiz statystycznych oraz tworzenia wizualizacji danych. Jego zaletą jest to, że wspiera wiele modeli statystycznych, a ze względu na jego popularność wielu analityków stworzyło w niej swoje aplikacje.
Do wad można z kolei zaliczyć… bezpieczeństwo, co ma kluczowe znaczenie, jeśli operujesz danymi wrażliwymi, np. sektora bankowego lub opieki zdrowotnej. R jest również wolniejszym językiem, pochłania również sporo pamięci.
Języki programowania Data Science – SQL
To również jeden z najpopularniejszych języków wykorzystywanych w Data Science. Jest używany do querowania i edytowania informacji zawartych w relacyjnych bazach danych. Na jego korzyść działa również to, że w świecie programowania SQL jest obecny od lat, głównie w zarządzaniu dużymi bazami danych, w którym skraca czas wysyłania zapytań online dzięki szybszemu procesowaniu.
To wszystko sprawia, że specjaliści SQL są poszukiwani również w branży Data Science. Wadą tego języka w Data Science są… funkcje ograniczone do podstawowych działań matematycznych.
Języki programowania Data Science – Julia
Nazwa tego języka może nie brzmieć ci znajomo, tymczasem Julia jest dynamicznym językiem programowania wysokiego poziomu. Jest to język ogólnego przeznaczenia, jednak jego funkcje są dobrze dopasowane przede wszystkim do analizy numerycznej i nauk obliczeniowych.
Julia dobrze radzi sobie ze złożonymi projektami, które zawierają wiele zestawów danych – dla podstawowych benchmarków okazuje się znacznie szybsza niż Python i równie szybka jak C. Jej syntaksa jest podobna do Pythona, co dla wielu z was może czynić ją idealną kandydatką na drugi język.
Języki programowania Data Science – Scala
Scala, której nazwa pochodzi od wyrażenia „skalowalny język”, jest dość dobrze znanym językiem ze sporą społecznością użytkowników. Scala jest językiem ogólnego przeznaczenia opartym na otwartym kodzie źródłowym. W działaniu wykorzystuje wirtualną maszynę Javy, co pozwala jej współdziałać z językiem Java. Scala jest również językiem bardzo „elastycznym” ponieważ do wykonania tej samej operacji możesz wykorzystać kilka metod.
Podobnie jak Julia, Scala sprawdzi się przy dużych zestawach danych, szczególnie jeśli zamierasz opracowywać dane na klastrach komputerowych, a twoje programy napisane w Javie zawierają sporo legacy code. Wadą Scali jest… stroma „krzywa wiedzy” i relatywnie niewielka społeczność, więc jeśli napotkasz skomplikowany problem, niekoniecznie znajdziesz pomoc wśród innych specjalistów.
Języki programowania Data Science – MATLAB
Rozwijany i licencjonowany przez MathWorks, Matlab jest szybki, stabilny i daje solidną podstawę algorytmów do analizy numerycznej, cyfrowej analizy obrazów i modelowania matematycznego. Wszystko to sprawia, że Matlab jest popularny zarówno w środowisku naukowym, jak i w przemyśle.
Matlab poniekąd słusznie cieszy się opinią języka, który wybierają głównie naukowcy i badacze do rozwiązywania skomplikowanych matematycznych problemów, na przykład do pracy z macierzami. Nie jest to jednak język ogólnego przeznaczenia, ale dzięki temu nic nie ogranicza możliwości wykorzystania go właśnie w Data Science.
Jaki język programowania do Data Science – podsumowanie
Obecność szerokopasmowego internetu i postępująca cyfryzacja usług spawają, że nigdy dotąd nie produkowaliśmy tak olbrzymich ilości danych. Wraz z ich wzrostem potrzebne są narzędzia, dyscypliny i metody ich przetwarzania tak, aby wyciągać słuszne wnioski i rozwiązywać problemy, które do tej pory wydawały się nie mieć rozwiązania.
Takie połączenie sprawia, że od dwóch lat daje się zauważyć coraz większe zainteresowanie specjalistami z dziedziny Data Science, interdyscyplinarnej dziedziny, która analizuje i przetwarza duże zestawy danych, wykorzystując do tego zarówno programowanie, jak i statystykę oraz uczenie maszynowe.
Programowanie jest nieodłączną częścią Data Science. Jaki język najlepiej wybrać? Popularnością cieszą się Python, R i SQL, jednak nie są to jedyne opcje, jakie masz. Zaawansowani użytkownicy jednego z tych trzech języków mogą również poszerzać swoje kompetencje – jak i możliwości realizowania zleceń – ucząc się jednego z mniej popularnych języków przeznaczonych do obsługi baz danych Data Science.