O NumPy, abreviatura de Numerical Python, é a biblioteca básica mais importante para o uso da análise de dados com Python. Os recursos do uso desse pacote permitem ao usuário realizar operações matemáticas, manipulação de vetores e dados entre outras diversas funcionalidade. No post de hoje, mostremos os pontos básicos mais importante do NumPy.
Entre os principais recursos que pode se encontrar com NumPy, estão:
- ndarray: um vetor multidimensional, que oferece operações aritméticas rápidas;
- funções matemáticas para operações com vetores;
- alinhamento e manipulação de dados.
ndarray
o objeto ndarray é uma classe de objeto no Python que permite a utilização de conjunto de dados como um vetor ou um conjunto de vetores, ou seja, permite realizar operações matemáticas e estatísticas, bem como também é possível manejar os dados de forma mais facilitada.
Um exemplo de calculo que podemos utilizar é multiplicar um número inteiro com um vetor de dados. Assim como na matemática, vemos que o valor escalar repete a operação em todos os valores do vetores (algo que não ocorre sem o NumPy sem definir uma operação de fluxo com for) , isto é chamado de vetorização.
import numpy as np data = np.random.randn(2, 3) data # array([[-1.09422288, -0.40715412, 1.09270467], # [ 0.77296148, 0.48996521, -0.76444864]]) # data * 5 # array([[-5.47111441, -2.03577062, 5.46352336], # [ 3.86480742, 2.44982605, -3.82224319]]) data + data # array([[-2.18844577, -0.81430825, 2.18540935], # [ 1.54592297, 0.97993042, -1.52889728]])
Outra questão, é que o ndarray é um vetor e necessita que os dados sejam homogêneos, ou seja, não se pode ter valores do tipo float64 junto com strings ou booleans.
data.dtype # dtype('float64')
Para criar um array no NumPy é extremamente simples. Se utiliza array para criar um vetor a partir de uma lista.
arr1 = np.array([1, 2, 3, 4, 5])
np.arange(10) arr1[1:3] # array([2, 3])
Para criar arrays multidimensionais (como matrizes), o processo de criação segue igual a criação de um vetor, a diferença é que separamos o valores com colchetes.
arr3d = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9], [10, 11, 12]]) arr3d # array([[ 1, 2, 3], # [ 4, 5, 6], # [ 7, 8, 9], # [10, 11, 12]]) arr3d * 2 # array([[ 2, 4, 6], # [ 8, 10, 12], # [14, 16, 18], # [20, 22, 24]]
Para realizar cálculos estatístico, o próprio NumPy oferece meios de realizar os cálculos.
# Média arr1.mean() # Soma arr1.sum() # Desvio Padrão arr1.std() # Mínimo arr1.min # Máximo arr1.max
Neste post apresentamos os pontos básicos do NumPy, de forma que iniciantes possam compreender o intuito da biblioteca. As possiblidades que o NumPy oferece são diversas, de modo que seja possível realizar tantas outras tarefas. Caso se interesse em meios de realizar análise de dados de forma mais compreensiva, veja nossos Cursos aplicado de Python.