Data-Science-Python-vs-R
I Big Data sono oggi “di moda” è scontato. Internet ed il web ha creato una moltitudine di dati lasciati da noi stessi durante la navigazione. Questi dati sono una fonte di denaro inimmaginabile. La fonte nasce dal riuso dei dati stessi che permette di creare nuovi scenari di business per le aziende.
La figura che analizza questa mole vastissima di dati e crea algoritmi è chiamata Data Scientist. Il settore in sè è definito Data Science (scienza dei dati).
Principalmente nel settore troviamo due strumenti software principali: Python ed R.
L’infografica seguente illustra un confronto tra Data-Science-Python-vs-R in una colonna lineare. Nel paragrafo seguente proviamo a commentare. Invece, per maggiori dettagli tra le figure di Big Data Engineer e Data Scientist vi consigliamo a leggere questo ulteriore articolo.
Data-Science-Python-vs-R: eccoli a confronto.

Python è il linguaggio di programmazione di Google il cui ambiente è scaricabile QUI
R è un’ambiente di sviluppo acquisito di recente da Microsoft il cui sito è visionabile a questo LINK
Circa lo scopo di ciascun ambiente/linguaggio, vediamo come Python in realtà ha più applicazioni. R nasce e viene utilizzato prettamente per il mondo statistico e l’analisi statistica.
Python è un linguaggio multy-paradigma e dal “general purpose”. E’ un linguaggio di “alto livello” (è più vicino al linguaggio uomo) per cui ha una curva di apprendimento più semplice rispetto ai linguaggi macchina (vedi il C). La sua versatilità e la sua potenza oggi lo vedono come il principale strumento per l’analisi dei dati nel mondo Data Science.
Il linguaggio R, è un open-source progettato per l’analisi statistica ed il calcolo.E’ disponibile per Linux, Mac e Windows.
Python è un vero linguaggio di programmazione che permette allo sviluppatore di avere un elevato livello di manutenibilità del software, scalabilità e robustezza.
R invece ha una sintassi “array-oriented”. Permette una facile conversione della matematica in codice. Quindi è utile per quei professionisti della matematica che hanno una minima dimestichezza nella programmazione.
Python è open-source, efficiente, potente, estensibile e con una buona curva di apprendimento come linguaggio.
R è anch’esso open-source, è un unico pacchetto software per l’analisi statistica ed ha una discreta community online per il confronto tra sviluppatori.
Sicuramente a livello di diffusione al primo posto viene Python, successivamente R. In maggior ragione per il lavoro di Data Scientist.
Python ha una serie di librerie utilizzate per l’analisi dei dati. Le principali sono:
- Numpy
- Scipy
- Pandas
- Scikit-learn
- StatsModel
- Matplotlib
R invece ha anch’esse delle librerie. Le più utilizzate sono:
- Caret
- GGVIS
- GGPLOT2
- STRINGR
- ZOO
- PLYR
- DPLYR
Chi usa queste tecnologie?
Esempi di aziende e software realizzati in Python sono:
- Walt Disney che utilizza Python per sviluppare i processi creativi
- Mozilla (sviluppa i suoi pacchetti di aggiornamento di browser con Python)
- Dropbox è scritto completamente in Python ed ha circa 150 milioni di utenti
Circa invece il salario di queste figure, vediamo come l’infografica fa riferimento al mercato americano. Ovviamente oltre oceano la diffusione di queste tecnologie è più avanti rispetto all’europa per non parlare dell’Italia.
In Italia queste figure sono ancora rare e gli stipendi sono molto alti. Si parte infatti con una RAL di 35-40 K € annue andando a salire con la seniority del consulente.
Inoltre il settore dei Big Data è in completa ascesa. Essendo gli scenari di applicazione vastissimi e ancora da scoprire, la richiesta della figura del Data Scientist aumenterà con il passare degli anni.
Sicuramente se siete dei profili di laurea in ambito matematico e/o statistico ed informatico, consigliamo di addentrarvi nel settore. Imparare ad utilizzare Python con le librerie per l’analisi dei dati è il primo passo per entrare nella professione. (Fonte link)
Innovaformazione, scuola informatica specialistica eroga formazione per figure Data Scientist con Python e per Big Data Engineer con Hadoop e Spark.
Di seguito riportiamo i link ai due corsi:
Corso Data Scientist con Python
INFO: info@innovaformazione.net – tel. 3471012275 (Dario Carrassi)
Vuoi essere ricontattato? Lasciaci il tuo numero telefonico e la tua email, ti richiameremo nelle 24h:
Articoli correlati
Arriva Java 23
Sviluppo Software Green
Lavoro SAP Reggio Emilia
Cosa è Git branching
Algoritmi per il Poker online
