Se você usa o Excel no trabalho, você provavelmente está frustrantemente familiarizado com esta caixa de diálogo:
Você provavelmente também trabalhou em uma planilha que era dolorosamente lenta de editar, onde cada clique era acompanhado por 10 segundos de congelamento da tela e a roda giratória da morte.
A culpa é dos arquivos ou pastas de trabalhosualmente grandes cheias de fórmulas. O Excel pode lidar com até um milhão de linhas, mas quando você está trabalhando com um grande conjunto de dados ou fazendo análises pesadas – aplicando fórmulas a um monte de células, ligando múltiplas planilhas ou conectando a outras pastas de trabalho – ele abranda muito antes de você atingir o limite de linhas.
Excel tem outra fraqueza que pode levar à ineficiência: sua estrutura é muito flexível. Isso pode parecer um pouco louco – a flexibilidade é uma das razões pelas quais as pessoas adoram o Excel. Como cada célula é sua própria entidade, você tem muita liberdade para adicionar notas de rodapé, fundir células, ou traçar um padrão de needlepoint.
No entanto, se uma célula pode ser manipulada facilmente, é mais difícil confiar na integridade da planilha como um todo. A flexibilidade do Excel torna quase impossível reforçar a consistência e a precisão em grandes conjuntos de dados. Não importa o quão vigilante você esteja, não importa quantas vezes você passe a planilha para digitação e fórmulas quebradas, você ainda pode perder alguma coisa.
Existe frequentemente uma ferramenta melhor para o trabalho.
- Oh, hey, SQL
- Planilha, encontre a base de dados relacional
- O salto de fórmulas para consultas
- Pasta de trabalho livre: O Guia Rápido do Usuário do Excel para SQL
- Passos seguintes para aprender SQL
- Você está a caminho!
Oh, hey, SQL
Os dados com os quais você está trabalhando no Excel tiveram que vir de algum lugar. Isso em algum lugar é uma base de dados. Mesmo quando você puxa dados de algo que não parece técnico (pense no Google Analytics, Stripe ou Salesforce), nos bastidores você está consultando uma base de dados.
Quantas visitas na web recebemos em janeiro? Qual é a nossa taxa de abandono do funil de pagamento para o produto que acabamos de lançar? Que representantes de vendas estão construindo mais pipeline do que outros? Estas são todas as consultas, em humano, não em computador, falam. Como usuário do Excel power, você provavelmente pode pensar em como escrever essas perguntas como fórmulas se estiver armado com o conjunto de dados correto.
Então como você consulta diretamente uma base de dados em vez disso? Na maioria dos casos, as pessoas usam SQL (abreviação para Structured Query Language). SQL diz a uma base de dados que dados você quer ver e manipular com calcuations.
Movendo alguns dos seus cálculos iniciais para SQL, você pode reduzir a quantidade de dados que você exporta. E com um conjunto de dados menor, é menos provável que você se depare com problemas de desempenho do Excel.
Como você fica mais confortável com SQL, você pode mover mais e mais da sua análise para SQL até chegar ao ponto em que o Excel se torne a exceção, e não a regra. Os bancos de dados SQL podem lidar com enormes quantidades de dados sem sofrer problemas de desempenho e ter uma estrutura ordenada que protege a integridade dos seus dados.
Aprender uma nova linguagem pode soar assustador – como pode usar ferramentas que simplesmente parecem mais técnicas. Mas como um usuário do Excel, você já sabe mais sobre SQL do que você poderia esperar.
Folha de cálculo, conheça a base de dados relacional
Uma base de dados é uma colecção organizada de dados. Existem muitos tipos diferentes de bancos de dados, mas o tipo específico de banco de dados com o qual o SQL pode se comunicar é conhecido como banco de dados relacional.
Apenas como uma pasta de trabalho do Excel é composta de planilhas, um banco de dados relacional é composto de tabelas, como a abaixo.
Tabelas têm linhas e colunas como uma planilha, mas em uma tabela, você não pode interagir com cada célula (ou “valor”, na terminologia do banco de dados) individualmente. Se você quiser excluir a cidade natal de Ralph Abernathy da linha superior da tabela acima, você não pode simplesmente excluí-la. Você tem que excluir a linha inteira ou toda a coluna “hometown”.
A razão pela qual você não pode mudar as células na hora é porque uma base de dados tem uma estrutura rígida. Os valores em cada linha estão ligados como uma única unidade. Cada coluna deve ter um nome único e só pode conter um tipo específico de dados (‘Inteiro’, ‘Texto’, ‘Data’, etc).
A estrutura flexível do Excel pode parecer muito boa neste momento, mas aguente firme. Como a estrutura de uma base de dados é tão estrita, é mais fácil proteger a integridade dos seus dados. Em outras palavras, é muito menos provável que você acabe com inconsistências e erros. E isso significa que você pode colocar muito mais confiança nos seus dados.
O salto das fórmulas para consultas
A maneira mais comum de manipular dados no Excel é usando fórmulas. Uma fórmula consiste em uma ou mais funções que dizem ao Excel o que fazer com os dados em uma célula. Por exemplo, você pode adicionar valores numéricos juntos usando SUM(A1:A5)
ou faz uma média deles usando AVERAGE(A1:A5)
.
O equivalente SQL de uma fórmula é uma consulta. A consulta para retornar a tabela acima se parece com isto:
SELECT player_name, hometown, state, weight FROM benn.college_football_players
SELECT
e FROM
são os dois ingredientes fundamentais de qualquer consulta SQL: SELECT
especifica as colunas de dados que deseja e FROM
indica em que tabela eles vivem. Você pode realmente escolher exibir todas as colunas adicionando um asterisco (*) após SELECT
, assim:
SELECT * FROM benn.college_football_players
Esta consulta mostraria todas as colunas na tabela benn.college_football_players
, assim você pode ter uma idéia de como todo o conjunto de dados se parece. Uma vez que você sabe o que precisa, você pode rapidamente cortar as colunas para reduzir o tamanho do conjunto de dados.
Fórmulas semelhantes, as consultas são compostas de funções que especificam as manipulações de dados. As consultas também podem conter cláusulas, operadores, expressões e alguns outros componentes, mas não vamos entrar em detalhes aqui. O que você precisa saber é que você pode usar SQL para manipular dados de praticamente qualquer forma que você faça no Excel.
Take the IF
function, por exemplo. Você usa IF
para criar instruções condicionais que filtram dados ou adicionam novos dados baseados em regras que você define. Here’s what an IF
function looks like when you apply it to a cell:
=IF(logical_test, value_if_true, )
You could read that as IF <some condition is met> THEN <display this value> OTHERWISE <display a different value>
. The OTHERWISE
portion, which is shown as , is optional.
The SQL equivalent of IF
is CASE
. They have very similar syntax:
CASE WHEN <condition 1 is met> THEN <display value 1> ELSE <display a different value> END
CASE
statements are considerably easier to read than IF
statements because SQL queries have multiple lines. This structure is ideal for an IF
statement with multiple conditions. For instance, if you want to add two categories based on existing data in Excel, you have to nest one IF statement inside another IF statement. When you add a lot of conditions, things get ugly quickly. Mas em SQL, você pode simplesmente adicionar uma nova condição como outra linha.
Em SQL, vamos adicionar múltiplas condições usando os dados de futebol universitário de cima. Vamos adicionar uma coluna que divide os jogadores de futebol em quatro grupos de peso. Aqui está a consulta:
E aqui está como é a tabela de resultados:
Não é muito difícil, certo? A declaração IF
para isto seria um pesadelo.
Você pode estar pensando, mas e os gráficos e gráficos? E quanto aos gráficos que fazem do meu relatório um relatório? Uma opção é manipular os dados em SQL, exportá-los e construir gráficos no Excel.
Se você quiser pular a etapa de exportação, no entanto, alguns programas SQL (como o Mode) permitem que você construa gráficos em cima dos resultados da sua consulta. Estes gráficos estão ligados directamente à sua base de dados, por isso sempre que voltar a executar uma consulta, os seus resultados e visualizações são automaticamente actualizados.
Mode Analytics
Pasta de trabalho livre: The Excel User’s Quick Start Guide to SQL
We’ve put together a workbook of six go-to Excel tasks and their SQL counterparts. Each lesson contains an example dataset and detailed instructions. You’ll learn how to do the following Excel functions in SQL:
- Arithmetic
IF
- Filtering
VLOOKUP
-
SUM
COUNT
, andAVG
- Grouped aggregation (pivot tables)
As you gain SQL knowledge, it’s helpful to know where to focus your learning and how to navigate your company’s data.
Pick tutorials geared toward data analysis
There are a lot of SQL resources, but not all of them are focused on data analysis.
Engineers and database administrators use SQL to create, update, and delete tables in databases. They can upload a whole new table or delete one permanently from the database. These are very different tasks from how you’ll use SQL (at least until you fall so in love with data that you make a career switch to analytics).
Don’t get bogged down in SQL tutorials that are designed for database management. Hone in on query-focused tutorials. Here are some SQL lessons to start out with:
- Retrieving data
- Filtering data and making simple calculations
- Using multiple filters at once
- Ordering your results
- Aggregating data
- Counting unique values in a column
- Conditional logic
- Joining datasets
If you find yourself in tutorials talking about things like:
CREATE TABLE
DROP TABLE
CREATE DATABASE
DROP DATABASE
….você caiu no buraco do coelho errado.
Prática com os dados da sua empresa
Se você está fazendo análise no trabalho, não há realmente nenhum substituto para usar os dados da sua empresa para aprender SQL. Você pode explorar a estrutura de dados da sua empresa e aprender conceitos técnicos ao mesmo tempo. O que quer que você pegue será imediatamente aplicável ao seu trabalho.
Para fazer isso, você precisa entender como os dados da sua empresa estão organizados. Onde estão armazenados os dados do produto e do marketing? Se você quiser olhar para as contas que foram movimentadas no mês passado, qual(is) tabela(s) você deveria estar consultando?
A maioria das empresas tem uma equipe de análise que trabalha diariamente com os dados da sua empresa. Estas pessoas serão capazes de responder às suas perguntas ou apontar-lhe uma documentação útil. Há uma relação mutuamente benéfica aqui: se você está consultando dados por conta própria, você está reduzindo o acúmulo de pedidos de dados da equipe de análise. Pontos brownie.
Um número de clientes da Mode têm até mesmo configurado sessões regulares de treinamento durante as quais os analistas ensinam SQL aos colegas usando seus dados internos. O feedback tem sido esmagadoramente positivo de ambos os grupos de pessoas! Diga-nos se está a pensar em configurar isto na sua empresa. Estamos felizes em compartilhar alguns aprendizados.
Você está a caminho!
Champing at the bit to get start? Faça o download gratuito do nosso Guia Rápido do Usuário do Excel e mergulhe no nosso Tutorial SQL!