Grandes volumes de big data. Big Data: análises e soluções

Você conhece essa famosa piada? Big Data é como sexo antes dos 18:

todos pensam nisso;
todo mundo fala sobre isso;
todos pensam que seus amigos estão fazendo isso;
quase ninguém o faz;
quem o faz, o faz mal;
todos pensam que será melhor da próxima vez;
ninguém toma medidas de segurança;
qualquer um tem vergonha de admitir que não sabe alguma coisa;
se alguém conseguir, sempre há muito barulho.

Mas vamos ser honestos, com qualquer hype, a curiosidade de sempre vai junto: que tipo de alarido há e há algo realmente importante lá? Em suma, sim, existe. Os detalhes estão abaixo. Selecionamos para você as aplicações mais incríveis e interessantes das tecnologias de Big Data. Este pequeno estudo de mercado com exemplos claros confronta um fato simples: o futuro não vem, você não precisa "esperar mais n anos e a mágica se tornará realidade". Não, já chegou, mas ainda é invisível aos olhos e, portanto, a queima da singularidade ainda não queima tanto um determinado ponto do mercado de trabalho. Vai.

1 Como as tecnologias de Big Data são aplicadas onde se originaram

Grandes empresas de TI são onde a ciência de dados nasceu, então seus trabalhos internos nessa área são os mais interessantes. Uma campanha do Google, berço do paradigma Map Reduce, cujo único objetivo é educar seus programadores em técnicas de aprendizado de máquina. E é aí que reside sua vantagem competitiva: depois de adquirir novos conhecimentos, os funcionários implementarão novos métodos nos projetos do Google em que trabalham constantemente. Imagine o quão grande é a lista de áreas em que a campanha pode fazer uma revolução. Um exemplo: redes neurais são usadas.

A corporação está implementando o aprendizado de máquina em todos os seus produtos. Sua vantagem é a presença de um grande ecossistema, que inclui todos os dispositivos digitais usados no dia a dia. Isso permite que a Apple alcance um nível impossível: a campanha tem mais dados de usuários do que qualquer outra. Ao mesmo tempo, a política de privacidade é muito rígida: a corporação sempre se gabou de não usar dados de clientes para fins publicitários. Assim, as informações do usuário são criptografadas para que os advogados da Apple ou mesmo o FBI com um mandado não possam lê-las. Por você vai encontrar ótima visão geral Desenvolvimentos da Apple no campo da IA.

2 Big Data em 4 rodas

Um carro moderno é um repositório de informações: ele acumula todos os dados sobre o motorista, o ambiente, os dispositivos conectados e sobre si mesmo. Em breve, um veículo conectado a uma rede como esta gerará até 25 GB de dados por hora.

A telemática veicular é usada por montadoras há muitos anos, mas agora está sendo feito lobby com um método de coleta de dados mais sofisticado que faz pleno uso do Big Data. Isso significa que a tecnologia agora pode alertar o motorista sobre más condições da estrada, ativando automaticamente o sistema de frenagem antibloqueio e controle de tração.

Outras preocupações, incluindo a BMW, estão usando a tecnologia Big Data, combinada com insights de protótipos de teste, sistemas integrados de "memória de erro" e reclamações de clientes, para identificar pontos fracos em um modelo no início da produção. Agora, em vez de avaliar manualmente os dados, o que leva meses, é aplicado um algoritmo de última geração. Erros e custos de solução de problemas são reduzidos, permitindo fluxos de trabalho de análise de dados mais rápidos na BMW.

Segundo estimativas de especialistas, até 2019 o faturamento do mercado conectado a uma única rede de carros chegará a US$ 130 bilhões, o que não surpreende, dado o ritmo de integração pelas montadoras de tecnologias que são parte integrante do veículo.

O uso de Big Data ajuda a tornar a máquina mais segura e funcional. Assim, a Toyota incorporando Módulos de Comunicação de Informação (DCM). Esta ferramenta, utilizada para Big Data, processa e analisa os dados coletados pelo DCM para se beneficiar ainda mais.

3 Aplicação de big data na medicina

A implementação de tecnologias de Big Data na área médica permite que os médicos estudem mais a fundo a doença e escolham um curso de tratamento eficaz para um caso específico. Graças à análise das informações, fica mais fácil para os profissionais de saúde prever recaídas e tomar medidas preventivas. O resultado é um diagnóstico mais preciso e tratamentos aprimorados.

A nova técnica possibilitou olhar para os problemas dos pacientes de um ângulo diferente, o que levou à descoberta de fontes do problema até então desconhecidas. Por exemplo, algumas raças são geneticamente mais predispostas a doenças cardíacas do que membros de outros grupos étnicos. Agora, quando um paciente se queixa de uma determinada doença, os médicos levam em conta dados de membros de sua raça que se queixaram do mesmo problema. A coleta e análise de dados permite que você aprenda muito mais sobre os pacientes: desde preferências alimentares e estilo de vida até a estrutura genética do DNA e metabólitos de células, tecidos, órgãos. Por exemplo, o Centro de Medicina Genômica Pediátrica em Kansas City usa pacientes e analisa mutações no código genético que causam câncer. Uma abordagem individual de cada paciente, levando em consideração seu DNA, elevará a eficácia do tratamento a um nível qualitativamente novo.

Com o entendimento de como o Big Data é usado, segue-se a primeira e muito importante mudança na área médica. Quando um paciente está em tratamento, um hospital ou outro estabelecimento de saúde pode obter muitas informações valiosas sobre a pessoa. As informações coletadas são usadas para prever a recorrência de doenças com certo grau de precisão. Por exemplo, se um paciente sofreu um acidente vascular cerebral, os médicos estudam informações sobre o momento do acidente vascular cerebral, analisam o período intermediário entre precedentes anteriores (se houver), prestando atenção especial às situações estressantes e esforço físico pesado na vida do paciente. Com base nesses dados, os hospitais fornecem ao paciente um plano de ação claro para evitar a possibilidade de um acidente vascular cerebral no futuro.

Dispositivos vestíveis também desempenham um papel, ajudando a identificar problemas de saúde, mesmo que uma pessoa não tenha sintomas óbvios de uma doença específica. Em vez de avaliar a condição do paciente por meio de um longo curso de exames, o médico pode tirar conclusões com base nas informações coletadas por um rastreador de condicionamento físico ou relógio inteligente.

Um dos exemplos mais recentes é . Enquanto o paciente estava sendo examinado para uma nova convulsão causada por uma medicação esquecida, os médicos descobriram que o homem tinha um problema de saúde muito mais sério. O problema acabou por ser fibrilação atrial. O diagnóstico foi feito pelo facto de o pessoal do serviço ter acesso ao telemóvel do doente, nomeadamente à aplicação associada ao seu monitor de fitness. Os dados do aplicativo acabaram sendo um fator chave na determinação do diagnóstico, pois no momento do exame não foram encontradas anormalidades cardíacas no homem.

Este é apenas um dos poucos casos que mostra por que usar big data no campo médico hoje desempenha um papel tão significativo.

4 A análise de dados já está no centro do varejo

Entender as consultas e o direcionamento do usuário é uma das maiores e mais divulgadas áreas de aplicação das ferramentas de Big Data. O Big Data ajuda a analisar os hábitos dos clientes para entender melhor as necessidades dos consumidores no futuro. As empresas estão procurando expandir o conjunto de dados tradicional com informações de mídia social e histórico de pesquisa do navegador para formar a imagem mais completa possível do cliente. Às vezes, grandes organizações optam por criar seu próprio modelo preditivo como uma meta global.

Por exemplo, a rede de lojas Target, usando análise profunda de dados e seu próprio sistema de previsão, pode determinar com alta precisão -. Cada cliente recebe um ID, que por sua vez está vinculado a um cartão de crédito, nome ou e-mail. O identificador funciona como uma espécie de carrinho de compras, onde são armazenadas informações sobre tudo o que uma pessoa já comprou. Especialistas da rede descobriram que as mulheres nessa posição compram ativamente produtos sem sabor antes do segundo trimestre de gravidez e durante as primeiras 20 semanas se alimentam de suplementos de cálcio, zinco e magnésio. Com base nos dados recebidos, a Target envia cupons de produtos infantis aos clientes. Os descontos em produtos para as próprias crianças são “diluídos” com cupons para outros produtos, para que as ofertas de compra de berço ou fraldas não pareçam muito intrusivas.

Até mesmo departamentos governamentais encontraram uma maneira de usar tecnologias de Big Data para otimizar campanhas eleitorais. Alguns acreditam que a vitória de B. Obama nas eleições presidenciais dos Estados Unidos em 2012 se deve ao excelente trabalho de sua equipe de analistas, que processou de forma correta enormes quantidades de dados.

5 Big Data em guarda da lei e da ordem

Nos últimos anos, as agências de aplicação da lei descobriram como e quando usar o Big Data. É um fato bem conhecido que a Agência de Segurança Nacional usa tecnologias de Big Data para prevenir ataques terroristas. Outros departamentos estão usando metodologia progressiva para prevenir crimes menores.

O Departamento de Polícia de Los Angeles usa . Ele faz o que é comumente referido como aplicação da lei proativa. Usando relatórios de crime para certo período tempo, o algoritmo determina as áreas onde a probabilidade de cometer delitos é maior. O sistema marca essas áreas no mapa da cidade com pequenos quadrados vermelhos e esses dados são imediatamente transmitidos aos carros de patrulha.

Polícias de Chicago usar tecnologias de big data de uma maneira um pouco diferente. Policiais da Windy City também o têm, mas visa delinear um "círculo de risco" composto por pessoas que podem ser vítimas ou participantes de um ataque armado. Segundo o The New York Times, esse algoritmo atribui uma pontuação de vulnerabilidade a uma pessoa com base em seu histórico criminal (prisões e participação em tiroteios, pertencentes a gangues criminosas). O desenvolvedor do sistema diz que, embora o sistema estude o passado criminal do indivíduo, não leva em consideração fatores secundários, como raça, gênero, etnia e localização da pessoa.

6 Como as tecnologias de Big Data ajudam as cidades a se desenvolver

O CEO da Veniam, João Barros, demonstra um mapa de rastreamento de roteadores Wi-Fi em ônibus na cidade do Porto

A análise de dados também é usada para melhorar vários aspectos da vida das cidades e países. Por exemplo, saber exatamente como e quando usar as tecnologias de Big Data pode otimizar os fluxos de transporte. Para isso, leva-se em conta a circulação online de carros, analisam-se as redes sociais e os dados meteorológicos. Hoje, várias cidades assumiram a liderança no uso da análise de dados para conectar a infraestrutura de transporte a outros modos de transporte. Serviços de utilidade pública em um todo. Este é o conceito de uma cidade inteligente, onde os ônibus esperam um trem atrasado e os semáforos são capazes de prever o congestionamento do tráfego para minimizar os congestionamentos.

Com base em tecnologias de Big Data, a cidade de Long Beach opera hidrômetros "inteligentes" que são usados para conter a irrigação ilegal. Anteriormente, eles eram usados para reduzir o consumo de água das residências particulares (o resultado máximo é uma redução de 80%). Economizar água fresca é sempre uma questão atual. Principalmente quando o estado vive a pior seca já registrada.

Representantes do Departamento de Transportes da Cidade de Los Angeles entraram na lista dos que usam Big Data. Com base nos dados recebidos dos sensores das câmeras de trânsito, as autoridades controlam o funcionamento dos semáforos, o que, por sua vez, permite regular o trânsito. O sistema informatizado controla cerca de 4.500.000 semáforos em toda a cidade. Segundo dados oficiais, o novo algoritmo ajudou a reduzir o congestionamento em 16%.

7 Motor de progresso em marketing e vendas

No marketing, as ferramentas de Big Data permitem identificar quais ideias são mais eficazes para promover em um determinado estágio do ciclo de vendas. A análise de dados determina como os investimentos podem melhorar o gerenciamento do relacionamento com o cliente, qual estratégia deve ser escolhida para aumentar as taxas de conversão e como otimizar o ciclo de vida do cliente. No negócio de nuvem, os algoritmos de Big Data são usados para descobrir como minimizar o custo de aquisição de clientes e aumentar o ciclo de vida do cliente.

A diferenciação das estratégias de precificação dependendo do nível intra-sistema do cliente é, talvez, a principal coisa para a qual o Big Data é usado no campo do marketing. A McKinsey descobriu que cerca de 75% da receita média da empresa vem de produtos básicos, 30% dos quais com preços incorretos. Um aumento de preço de 1% resulta em um aumento de 8,7% no lucro operacional.

A equipe de pesquisa da Forrester conseguiu determinar que a análise de dados permite que os profissionais de marketing se concentrem em como tornar o relacionamento com o cliente mais bem-sucedido. Ao explorar a direção do desenvolvimento do cliente, os especialistas podem avaliar o nível de sua fidelidade, bem como estender o ciclo de vida no contexto de uma determinada empresa.

A otimização das estratégias de vendas e as etapas de entrada em novos mercados usando geoanalítica se refletem na indústria biofarmacêutica. De acordo com a McKinsey, as empresas farmacêuticas gastam uma média de 20 a 30% de seus lucros em administração e vendas. Se as empresas se tornarem mais ativas usar grandes dados para identificar os mercados mais econômicos e de crescimento mais rápido, os custos serão cortados imediatamente.

A análise de dados é um meio para as empresas obterem uma visão completa dos principais aspectos de seus negócios. Aumentar receitas, reduzir custos e reduzir capital de giro são as três tarefas que as empresas modernas tentam resolver com a ajuda de ferramentas analíticas.

Por fim, 58% dos CMOs dizem que a implementação de tecnologias de Big Data pode ser rastreada em Motor de Otimização de Busca(SEO), e-mail e mobile marketing, onde a análise de dados desempenha o papel mais significativo na formação de programas de marketing. E apenas 4% menos entrevistados estão confiantes de que o Big Data desempenhará um papel significativo em todas as estratégias de marketing por muitos anos.

8 Análise de dados globais

Não menos curioso é isso. É possível que o aprendizado de máquina seja a única força capaz de manter um equilíbrio delicado. O tema da influência humana no aquecimento global ainda causa muita controvérsia, portanto, apenas modelos preditivos confiáveis, baseados na análise de grandes quantidades de dados, podem dar uma resposta precisa. Em última análise, a redução das emissões ajudará a todos nós: gastaremos menos em energia.

Agora, Big Data não é um conceito abstrato, que, talvez, encontre sua aplicação em alguns anos. Este é um conjunto de tecnologias totalmente funcional que pode ser útil em quase todas as áreas da atividade humana: da medicina e ordem pública ao marketing e vendas. A fase de integração ativa do Big Data em nosso cotidiano está apenas começando, e quem sabe qual será o papel do Big Data em alguns anos?

Big data é um termo amplo para as estratégias e tecnologias inovadoras necessárias para coletar, organizar e processar informações de grandes conjuntos de dados. Embora o problema de lidar com dados que excedem o poder de computação ou a capacidade de armazenamento de um único computador não seja novo, a escala e o valor desse tipo de computação se expandiram significativamente nos últimos anos.

Neste artigo, você encontrará os principais conceitos com os quais poderá se deparar ao explorar o big data. Também discute alguns dos processos e tecnologias atualmente em uso nesta área.

O que são grandes dados?

Uma definição precisa de "big data" é difícil de definir porque projetos, fornecedores, profissionais e profissionais de negócios o utilizam de maneiras muito diferentes. Com isso em mente, big data pode ser definido como:

Grandes conjuntos de dados.
Uma categoria de estratégias e tecnologias computacionais que são usadas para processar grandes conjuntos de dados.

Neste contexto, "grande conjunto de dados" significa um conjunto de dados muito grande para ser processado ou armazenado usando ferramentas tradicionais ou em um único computador. Isso significa que a escala geral de grandes conjuntos de dados está mudando constantemente e pode variar significativamente de caso para caso.

Sistemas de big data

Os requisitos básicos para trabalhar com big data são os mesmos de qualquer outro conjunto de dados. No entanto, a escala massiva, a velocidade de processamento e as características de dados encontradas em cada etapa do processo apresentam novos desafios sérios no desenvolvimento de ferramentas. O objetivo da maioria dos sistemas de big data é entender e se comunicar com grandes quantidades de dados heterogêneos de uma maneira que não seria possível usando métodos convencionais.

Em 2001, Doug Laney, do Gartner, introduziu os "três Vs do big data" para descrever algumas das características que tornam o processamento de big data diferente de outros tipos de processamento de dados:

Volume (volume de dados).
Velocidade (velocidade de acumulação e processamento de dados).
Variedade (variedade de tipos de dados processados).

Volume de dados

A escala excepcional das informações processadas ajuda a definir os sistemas de big data. Esses conjuntos de dados podem ser muito maiores do que os conjuntos de dados tradicionais, exigindo mais atenção em cada estágio de processamento e armazenamento.

Como os requisitos excedem a capacidade de um único computador, geralmente surge o problema de agrupar, distribuir e coordenar recursos de grupos de computadores. O gerenciamento de clusters e algoritmos capazes de dividir tarefas em partes menores estão se tornando cada vez mais importantes nessa área.

Velocidade de acumulação e processamento

A segunda característica que distingue significativamente o big data de outros sistemas de dados é a velocidade com que as informações se movem pelo sistema. Os dados geralmente entram no sistema de várias fontes e devem ser processados em tempo real para atualizar o estado atual do sistema.

Essa ênfase no instantâneo comentários forçou muitos profissionais a abandonar a abordagem orientada a lotes e preferir um sistema de streaming em tempo real. Os dados são constantemente adicionados, processados e analisados para acompanhar o fluxo de novas informações e obter dados valiosos em um estágio inicial, quando são mais relevantes. Isso requer sistemas robustos com componentes altamente disponíveis para proteção contra falhas ao longo do pipeline de dados.

Variedade de tipos de dados processados

Big data tem muitos desafios únicos relacionados à ampla gama de fontes processadas e sua qualidade relativa.

Os dados podem vir de sistemas internos, como logs de aplicativos e servidores, de canais de mídia social e outras APIs externas, de sensores dispositivos físicos e de outras fontes. O objetivo dos sistemas de big data é processar dados potencialmente úteis, independentemente da origem, combinando todas as informações em um único sistema.

Os formatos e tipos de mídia também podem variar consideravelmente. Arquivos de mídia (imagens, vídeo e áudio) são combinados com arquivos de texto, logs estruturados, etc. Os sistemas de processamento de dados mais tradicionais esperam que os dados entrem no pipeline já rotulados, formatados e organizados, mas os sistemas de big data normalmente recebem e armazenam dados, tentando manter seu estado original. Idealmente, quaisquer transformações ou modificações nos dados brutos ocorrerão na memória durante o processamento.

Outras características

Ao longo do tempo, indivíduos e organizações propuseram expandir os "três Vs" originais, embora essas inovações tendam a descrever problemas e não características de big data.

Veracidade: A variedade de fontes e a complexidade do processamento podem levar a problemas na avaliação da qualidade dos dados (e, portanto, da qualidade da análise resultante).
Variabilidade (variabilidade de dados): alterar os dados leva a grandes mudanças na qualidade. Identificar, processar ou filtrar dados de baixa qualidade pode exigir recursos adicionais para melhorar a qualidade dos dados.
Valor: O objetivo final do big data é o valor. Às vezes, os sistemas e processos são muito complexos, dificultando o uso de dados e a extração de valores reais.

Ciclo de vida de big data

Então, como o big data é realmente tratado? Existem várias abordagens de implementação diferentes, mas há pontos em comum entre as estratégias e o software.

Inserindo dados no sistema
Salvando dados no armazenamento
Cálculo e análise de dados
Visualização de resultados

Antes de examinar detalhadamente essas quatro categorias de fluxos de trabalho, vamos falar sobre computação em cluster, uma estratégia importante usada por muitas ferramentas de processamento de big data. A configuração de um cluster de computação é a espinha dorsal da tecnologia usada em cada estágio do ciclo de vida.

Computação em cluster

Devido à qualidade do big data computadores individuais não é adequado para processamento de dados. Os clusters são mais adequados para isso, pois podem lidar com as necessidades de armazenamento e computação de big data.

O software de cluster de big data agrupa os recursos de muitas máquinas pequenas, com o objetivo de fornecer vários benefícios:

Recursos de pool: o processamento de grandes conjuntos de dados requer uma grande quantidade de recursos de CPU e memória, bem como muito espaço de armazenamento disponível.
Alta disponibilidade: os clusters podem fornecer níveis variados de resiliência e disponibilidade para que o acesso e o processamento de dados não sejam afetados por falhas de hardware ou software. Isso é especialmente importante para análises em tempo real.
Escalabilidade: Os clusters suportam escala horizontal rápida (adicionando novas máquinas ao cluster).

Para trabalhar em um cluster, você precisa de ferramentas para gerenciar a associação ao cluster, coordenar a alocação de recursos e planejar o trabalho com nós individuais. A associação de cluster e a alocação de recursos podem ser tratadas com programas como Hadoop YARN (Yet Another Resource Negotiator) ou Apache Mesos.

Um cluster de computação pré-fabricado geralmente atua como uma base com a qual outro interage para processar dados. Programas. As máquinas que participam de um cluster de computação também são normalmente associadas ao gerenciamento de armazenamento distribuído.

Obtendo dados

A ingestão de dados é o processo de adicionar dados brutos ao sistema. A complexidade dessa operação depende em grande parte do formato e da qualidade das fontes de dados e de como os dados atendem aos requisitos de processamento.

Você pode adicionar big data ao sistema usando ferramentas especiais. Tecnologias como o Apache Sqoop podem pegar dados existentes de bancos de dados relacionais e adicioná-los a um sistema de big data. Você também pode usar Apache Flume e Apache Chukwa - projetos projetados para agregar e importar logs de aplicativos e servidores. Agentes de mensagens como o Apache Kafka podem ser usados como uma interface entre vários geradores de dados e um sistema de big data. Frameworks como o Gobblin podem combinar e otimizar a saída de todas as ferramentas no final do pipeline.

Durante a ingestão de dados, geralmente são realizadas análises, classificação e rotulagem. Esse processo às vezes é chamado de ETL (extrair, transformar, carregar), que significa extrair, transformar e carregar. Embora o termo geralmente se refira a processos de armazenamento legados, às vezes também é aplicado a sistemas de big data. as operações típicas incluem a modificação de dados de entrada para formatação, categorização e rotulagem, filtragem ou validação de dados.

Idealmente, os dados recebidos passam por uma formatação mínima.

Armazenamento de dados

Uma vez recebidos, os dados passam para os componentes que gerenciam o armazenamento.

Normalmente, os sistemas de arquivos distribuídos são usados para armazenar dados brutos. Soluções como o HDFS do Apache Hadoop permitem gravar grandes quantidades de dados em vários nós em um cluster. Esse sistema fornece recursos de computação com acesso a dados, pode carregar dados na RAM do cluster para operações de memória e lidar com falhas de componentes. Outros sistemas de arquivos distribuídos podem ser usados em vez do HDFS, incluindo Ceph e GlusterFS.

Os dados também podem ser importados para outros sistemas distribuídos para acesso mais estruturado. Bancos de dados distribuídos, especialmente bancos de dados NoSQL, são adequados para essa função porque podem manipular dados heterogêneos. Existem muitos tipos diferentes de bancos de dados distribuídos, dependendo de como você deseja organizar e apresentar os dados.

Cálculo e análise de dados

Assim que os dados estiverem disponíveis, o sistema pode iniciar o processamento. O nível computacional talvez seja a parte mais livre do sistema, pois os requisitos e abordagens aqui podem diferir significativamente dependendo do tipo de informação. Os dados são frequentemente reprocessados, seja com uma única ferramenta ou com uma variedade de ferramentas para processar diferentes tipos de dados.

O processamento em lote é um dos métodos de cálculo em grandes conjuntos de dados. Esse processo inclui dividir os dados em partes menores, programar cada parte para ser processada em uma máquina separada, reorganizar os dados com base em resultados intermediários, e então calculando e coletando o resultado final. Essa estratégia usa MapReduce do Apache Hadoop. O processamento em lote é mais útil ao trabalhar com conjuntos de dados muito grandes que exigem bastante computação.

Outras cargas de trabalho requerem processamento em tempo real. Ao mesmo tempo, as informações devem ser processadas e preparadas imediatamente, e o sistema deve responder em tempo hábil à medida que novas informações se tornam disponíveis. Uma maneira de implementar o processamento em tempo real é processar um fluxo contínuo de dados que consiste em elementos individuais. Outra característica comum dos processadores de tempo real é que eles computam dados na memória do cluster, o que evita a necessidade de gravação em disco.

Oferta Apache Storm, Apache Flink e Apache Spark várias maneiras implementações de processamento em tempo real. Essas tecnologias flexíveis permitem que você escolha a melhor abordagem para cada questão separada. Em geral, o processamento em tempo real é mais adequado para analisar pequenos dados que mudam ou são adicionados rapidamente ao sistema.

Todos esses programas são frameworks. No entanto, existem muitas outras maneiras de calcular ou analisar dados em um sistema de big data. Essas ferramentas geralmente se conectam às estruturas acima e fornecem interfaces adicionais para interagir com as camadas subjacentes. Por exemplo, o Apache Hive fornece uma interface de data warehouse para o Hadoop, o Apache Pig fornece uma interface de consulta e interações com Dados SQL fornecido com Apache Drill, Apache Impala, Apache Spark SQL e Presto. O aprendizado de máquina usa Apache SystemML, Apache Mahout e MLlib do Apache Spark. Para programação analítica direta, que é amplamente suportada pelo ecossistema de dados, R e Python são usados.

Visualização de resultados

Muitas vezes, reconhecer tendências ou mudanças nos dados ao longo do tempo é mais importante do que os valores obtidos. A visualização de dados é uma das formas mais úteis de identificar tendências e organizar um grande número de pontos de dados.

O processamento em tempo real é usado para visualizar as métricas do aplicativo e do servidor. Os dados mudam com frequência e grandes variações nas métricas geralmente indicam um impacto significativo na integridade dos sistemas ou organizações. Projetos como o Prometheus podem ser usados para processar fluxos de dados e séries temporais e visualizar essas informações.

Uma maneira popular de visualizar dados é a pilha elástica, anteriormente conhecida como pilha ELK. O Logstash é usado para coleta de dados, Elasticsearch para indexação de dados e Kibana para visualização. A pilha Elastic pode trabalhar com big data, visualizar os resultados de cálculos ou interagir com métricas brutas. Uma pilha semelhante pode ser obtida mesclando o Apache Solr para indexar um fork do Kibana chamado Banana para visualização. Essa pilha é chamada de Silk.

Os documentos são outra tecnologia de visualização para trabalho de dados interativo. Esses projetos permitem a exploração interativa e a visualização de dados em um formato fácil de compartilhar e apresentar. Exemplos populares desse tipo de interface são Jupyter Notebook e Apache Zeppelin.

Glossário de big data

Big data é um termo amplo para conjuntos de dados que não podem ser processados corretamente. computadores convencionais ou ferramentas devido ao seu volume, velocidade de entrega e variedade. O termo também é comumente aplicado a tecnologias e estratégias para lidar com esses dados.
O processamento em lote é uma estratégia computacional que envolve o processamento de dados em grandes conjuntos. Esse método geralmente é ideal para lidar com dados não urgentes.
A computação em cluster é a prática de reunir os recursos de várias máquinas e gerenciá-los oportunidades comuns para completar tarefas. Isso requer uma camada de gerenciamento de cluster que lide com a comunicação entre nós individuais.
Um data lake é um grande repositório de dados coletados em um estado relativamente bruto. O termo é frequentemente usado para se referir a big data não estruturado e em constante mudança.
A mineração de dados é um termo amplo para as várias práticas de encontrar padrões em grandes conjuntos de dados. É uma tentativa de organizar uma massa de dados em um conjunto de informações mais compreensível e coerente.
Um data warehouse é um repositório grande e organizado para análise e relatórios. Ao contrário de um data lake, um warehouse consiste em dados formatados e bem organizados que são integrados a outras fontes. Os data warehouses são frequentemente referidos em relação ao big data, mas geralmente são componentes de sistemas convencionais de processamento de dados.
ETL (extrair, transformar e carregar) - extrair, transformar e carregar dados. É assim que se parece o processo de obtenção e preparação de dados brutos para uso. Está associado a data warehouses, mas as características desse processo também são encontradas nos pipelines dos sistemas de big data.
Hadoop é um projeto Apache de código aberto para big data. Ele consiste em um sistema de arquivos distribuído chamado HDFS e um agendador de cluster e recursos chamado YARN. Os recursos de processamento em lote são fornecidos pelo mecanismo de cálculo MapReduce. Com o MapReduce, as implantações modernas do Hadoop podem executar outros sistemas de computação e análise.
A computação na memória é uma estratégia que envolve mover os conjuntos de dados de trabalho inteiramente para a memória do cluster. Os cálculos intermediários não são gravados em disco, mas armazenados na memória. Isso dá aos sistemas uma enorme vantagem de velocidade em relação aos sistemas limitados por E/S.
O aprendizado de máquina é o estudo e a prática de projetar sistemas que podem aprender, ajustar e melhorar com base nos dados que são alimentados. Normalmente, isso significa a implementação de algoritmos preditivos e estatísticos.
Map reduce (não deve ser confundido com MapReduce do Hadoop) é um algoritmo de agendamento de cluster de computação. O processo inclui dividir a tarefa entre nós e obter resultados intermediários, embaralhar e, em seguida, emitir um único valor para cada conjunto.
NoSQL é um termo amplo para bancos de dados projetados fora do modelo relacional tradicional. Os bancos de dados NoSQL são adequados para big data devido à sua flexibilidade e arquitetura distribuída.
Streaming é a prática de calcular itens individuais de dados à medida que se movem pelo sistema. Isso permite a análise de dados em tempo real e é adequado para o processamento de transações de tempo crítico usando métricas de alta velocidade.

Tag: ,

Previa-se que o volume global total de dados criados e replicados em 2011 poderia ser de cerca de 1,8 zettabytes (1,8 trilhão de gigabytes) – cerca de 9 vezes mais do que o que foi criado em 2006.

Definição mais complexa

No entanto` big data` envolvem mais do que apenas analisar grandes quantidades de informações. O problema não é que as organizações criam grandes quantidades de dados, mas que a maioria deles é apresentada em um formato que não se encaixa bem com o formato tradicional de banco de dados estruturado - são web logs, vídeos, documentos de texto, código de máquina ou, por exemplo, dados geoespaciais. Tudo isso é armazenado em vários repositórios diferentes, às vezes até fora da organização. Como resultado, as corporações podem ter acesso a uma enorme quantidade de seus dados e não ferramentas necessárias estabelecer relações entre esses dados e tirar deles conclusões significativas. Acrescente a isso o fato de que os dados estão sendo atualizados cada vez com mais frequência, e você obtém uma situação em que métodos tradicionais a análise de informações não consegue acompanhar grandes volumes de dados constantemente atualizados, o que acaba abrindo caminho para a tecnologia big data.

Melhor definição

Em essência, o conceito big data envolve trabalhar com informações de grande volume e composição diversificada, muitas vezes atualizadas e localizadas em diferentes fontes para aumentar a eficiência do trabalho, criar novos produtos e aumentar a competitividade. A empresa de consultoria Forrester coloca sucintamente: ` big data reúnem técnicas e tecnologias que extraem significado dos dados no limite extremo da praticidade».

Qual é a diferença entre business intelligence e big data?

Craig Bathy, Chief Marketing Officer e Chief Technology Officer da Fujitsu Australia, destacou que a análise de negócios é um processo descritivo de analisar os resultados alcançados por um negócio em um determinado período de tempo, enquanto a velocidade de processamento big data permite que você faça a análise preditiva, capaz de oferecer recomendações de negócios para o futuro. As tecnologias de big data também permitem analisar mais tipos de dados do que as ferramentas de business intelligence, o que possibilita focar não apenas no armazenamento estruturado.

Matt Slocum de O "Reilly Radar acredita que, embora big data e business intelligence têm o mesmo objetivo (encontrar respostas para uma pergunta), diferem entre si em três aspectos.

Big data é projetado para processar maiores quantidades de informações do que business intelligence, e isso, é claro, se encaixa na definição tradicional de big data.
Big data é projetado para processar informações mais rápidas e que mudam mais rapidamente, o que significa profunda exploração e interatividade. Em alguns casos, os resultados são gerados mais rapidamente do que o carregamento da página da web.
O big data é projetado para lidar com dados não estruturados que estamos apenas começando a explorar como usá-los depois que conseguimos coletá-los e armazená-los, e precisamos de algoritmos e diálogo para facilitar a localização das tendências contidas nesses arrays.

De acordo com o white paper Oracle Information Architecture: An Architect's Guide to Big Data publicado pela Oracle, abordamos as informações de maneira diferente ao trabalhar com big data do que ao fazer análises de negócios.

Trabalhar com big data não é como um processo típico de business intelligence, onde simplesmente somar valores conhecidos gera resultados: por exemplo, somar contas pagas juntas se torna vendas por um ano. Ao trabalhar com big data, o resultado é obtido no processo de limpeza deles por meio de modelagem sequencial: primeiro, uma hipótese é apresentada, um modelo estatístico, visual ou semântico é construído, com base na verificação da correção da hipótese apresentada , e então o próximo é apresentado. Esse processo requer que o pesquisador interprete significados visuais ou faça consultas interativas baseadas em conhecimento, ou desenvolva algoritmos adaptativos de 'aprendizagem de máquina' capazes de produzir o resultado desejado. Além disso, o tempo de vida de tal algoritmo pode ser bastante curto.

Técnicas de Análise de Big Data

Existem muitos métodos diferentes para analisar matrizes de dados, que são baseados em ferramentas emprestadas da estatística e da ciência da computação (por exemplo, aprendizado de máquina). A lista não pretende ser completa, mas reflete as abordagens mais populares em vários setores. Ao mesmo tempo, deve-se entender que os pesquisadores continuam trabalhando na criação de novos métodos e no aprimoramento dos já existentes. Além disso, algumas das técnicas listadas não são necessariamente aplicáveis exclusivamente a grandes dados e podem ser usadas com sucesso para arrays menores (por exemplo, teste A/B, análise de regressão). Obviamente, quanto mais volumoso e diversificado for o array analisado, mais precisos e relevantes podem ser obtidos na saída.

Teste A/B. Uma técnica na qual uma amostra de controle é comparada com outras, por sua vez. Assim, é possível identificar a combinação ótima de indicadores para alcançar, por exemplo, a melhor resposta do consumidor a uma oferta de marketing. big data permitem realizar um grande número de iterações e assim obter um resultado estatisticamente significativo.

aprendizagem de regras de associação. Um conjunto de técnicas para identificar relacionamentos, ou seja, regras de associação entre variáveis em grandes matrizes de dados. Usado em mineração de dados.

classificação. Um conjunto de técnicas que permite prever o comportamento do consumidor em um determinado segmento de mercado (decisões de compra, churn, volume de consumo, etc.). Usado em mineração de dados.

análise de cluster. Um método estatístico para classificar objetos em grupos, identificando características comuns que não são conhecidas antecipadamente. Usado em mineração de dados.

Crowdsourcing. Uma técnica para coletar dados de um grande número de fontes.

Fusão de dados e integração de dados. Um conjunto de técnicas que permite analisar os comentários dos usuários das redes sociais e compará-los com resultados de vendas em tempo real.

mineração de dados. Um conjunto de técnicas que permite determinar as categorias de consumidores mais suscetíveis ao produto ou serviço promovido, identificar as características dos funcionários mais bem-sucedidos e prever o modelo comportamental dos consumidores.

Aprendizagem em conjunto. Esse método usa muitos modelos preditivos, o que melhora a qualidade das previsões feitas.

Algorítmos genéticos. Nesta técnica, as soluções possíveis são representadas como 'cromossomos' que podem se combinar e sofrer mutações. Como no processo de evolução natural, o indivíduo mais apto sobrevive.

aprendizado de máquina. Uma direção em ciência da computação (historicamente, o nome `inteligência artificial` foi atribuído a ela), que visa criar algoritmos de autoaprendizagem baseados na análise de dados empíricos.

processamento de linguagem natural (PNL). Um conjunto de técnicas de reconhecimento de linguagem natural emprestadas da ciência da computação e da linguística.

análise de rede. Um conjunto de técnicas para analisar links entre nós em redes. No que diz respeito às redes sociais, permite analisar a relação entre utilizadores individuais, empresas, comunidades, etc.

Otimização. Um conjunto de métodos numéricos para redesenhar sistemas e processos complexos para melhorar um ou mais indicadores. Auxilia na tomada de decisões estratégicas, por exemplo, na composição da linha de produtos apresentada ao mercado, na realização de análises de investimentos, etc.

reconhecimento de padrões. Um conjunto de técnicas com elementos de autoaprendizagem para prever o modelo comportamental dos consumidores.

modelagem preditiva. Um conjunto de técnicas que permitem criar modelo matemático um cenário provável predeterminado para o desenvolvimento de eventos. Por exemplo, a análise do banco de dados do sistema CRM para possíveis condições que levarão os assinantes a mudar de provedor.

regressão. Um conjunto de métodos estatísticos para identificar padrões entre mudanças em uma variável dependente e uma ou mais variáveis independentes. Muitas vezes usado para previsão e previsões. Usado em mineração de dados.

análise de sentimentos. As técnicas para avaliar o sentimento do consumidor são baseadas em tecnologias de reconhecimento de linguagem natural humana. Eles permitem isolar mensagens relacionadas ao assunto de interesse (por exemplo, um produto de consumo) do fluxo de informações gerais. Em seguida, avalie a polaridade do julgamento (positivo ou negativo), o grau de emotividade e assim por diante.

processamento de sinal. Um conjunto de técnicas emprestadas da engenharia de rádio, que visa reconhecer um sinal contra um fundo de ruído e sua posterior análise.

Análise espacial. Um conjunto de técnicas de análise de dados espaciais, parcialmente emprestados de estatísticas - topologia da área, coordenadas geográficas, geometria do objeto. fonte big data neste caso, os sistemas de informação geográfica (GIS) atuam frequentemente.

Revolution Analytics (baseado na linguagem R para estatísticas matemáticas).

De particular interesse nesta lista é o Apache Hadoop, um software de código aberto que foi testado como analisador de dados pela maioria dos rastreadores de ações nos últimos cinco anos. Assim que o Yahoo abriu o código do Hadoop para a comunidade de código aberto, uma nova tendência na indústria de TI emergiu rapidamente para criar produtos baseados no Hadoop. Quase todas as ferramentas de análise modernas big data fornecer integração com o Hadoop. Seus desenvolvedores são startups e empresas globais bem conhecidas.

Mercados para soluções de gerenciamento de Big Data

Plataformas de Big Data (BDP, Big Data Platform) como meio de combate à horda digital

Capacidade de analisar big data, coloquialmente chamado de Big Data, é percebido como uma benção e sem ambiguidade. Mas é realmente assim? O que o acúmulo desenfreado de dados pode levar? Muito provavelmente ao fato de que os psicólogos domésticos em relação a uma pessoa chamam de acumulação patológica, silogomania ou, figurativamente, "síndrome de Plyushkin". Em inglês, a paixão viciosa de coletar tudo é chamada de hording (do tesouro inglês - “reserva”). De acordo com a classificação da doença mental, o hording é classificado como um transtorno mental. Na era digital, o digital (Digital Hoarding) se soma ao tradicional acorde material, tanto indivíduos quanto empresas inteiras e organizações () podem sofrer com isso.

Mercado mundial e russo

Cenário de big data - Principais provedores

Interesse em ferramentas de coleta, processamento, gerenciamento e análise big data mostrou quase todas as principais empresas de TI, o que é bastante natural. Em primeiro lugar, eles vivenciam diretamente esse fenômeno em seu próprio negócio e, em segundo lugar, big data abrir excelentes oportunidades para desenvolver novos nichos de mercado e atrair novos clientes.

Surgiram no mercado muitas startups que fazem negócios no processamento de grandes quantidades de dados. Alguns deles usam infraestrutura de nuvem pronta fornecida por grandes players como a Amazon.

Teoria e prática de Big Data nas indústrias

A história do desenvolvimento

2017

Previsão da TmaxSoft: a próxima "onda" de Big Data exigirá modernização do DBMS

As empresas sabem que a grande quantidade de dados que acumulam contém informação importante sobre seus negócios e clientes. Se a empresa conseguir aplicar essas informações com sucesso, terá uma vantagem significativa sobre seus concorrentes e poderá oferecer produtos e serviços melhores que os deles. No entanto, muitas organizações ainda não podem usar efetivamente big data devido ao fato de que sua infraestrutura de TI legada é incapaz de fornecer a capacidade de armazenamento necessária, os processos de troca de dados, utilitários e aplicativos necessários para processar e analisar grandes matrizes de dados não estruturados para extrair informações valiosas deles, indicou a TmaxSoft.

Além disso, aumentar o poder de processamento necessário para analisar volumes cada vez maiores de dados pode exigir um investimento significativo na infraestrutura de TI herdada de uma organização, bem como recursos de manutenção adicionais que podem ser usados para desenvolver novos aplicativos e serviços.

Em 5 de fevereiro de 2015, a Casa Branca divulgou um relatório discutindo como as empresas estão usando " big data estabelecer preços diferentes para compradores diferentes - uma prática conhecida como "discriminação de preços" ou "preços diferenciados" (preços personalizados). O relatório descreve os benefícios do "big data" para vendedores e compradores e conclui que muitas das questões levantadas pelo advento do big data e dos preços diferenciados podem ser abordadas dentro das leis e regulamentos antidiscriminação existentes. .

O relatório observa que, neste momento, há apenas evidências anedóticas de como as empresas estão usando big data no contexto de marketing individualizado e preços diferenciados. Essas informações mostram que os vendedores usam métodos de precificação que podem ser divididos em três categorias:

estudar a curva de demanda;
Direcionamento e preços diferenciados com base na demografia; e
marketing comportamental direcionado (segmentação comportamental - segmentação comportamental) e precificação individualizada.

Estudando a curva de demanda: para entender a demanda e estudar o comportamento do consumidor, os profissionais de marketing costumam realizar experimentos nessa área, durante os quais os clientes recebem aleatoriamente uma das duas categorias de preço possíveis. “Tecnicamente, esses experimentos são uma forma de precificação diferenciada porque resultam em preços diferentes para os clientes, mesmo que sejam “não discriminatórios” no sentido de que todos os clientes têm a mesma chance de “atingir” o preço mais alto.”

Direção: esta é a prática de apresentar produtos aos consumidores com base em sua participação em um determinado grupo demográfico. Assim, o site de uma empresa de informática pode oferecer o mesmo laptop tipos diferentes compradores a preços diferentes com base nas informações que eles fornecem sobre si mesmos (por exemplo, dependendo se determinado usuário representante de agências governamentais, instituições científicas ou comerciais ou um indivíduo) ou sua localização geográfica (por exemplo, determinada pelo endereço IP de um computador).

Marketing comportamental direcionado e preços personalizados: Nesses casos, os dados pessoais dos compradores são usados para publicidade direcionada e preços individualizados de determinados produtos. Por exemplo, os anunciantes on-line usam dados coletados redes de publicidade e através de cookies de terceiros, dados sobre a atividade do usuário na Internet para direcionar seus materiais publicitários. Essa abordagem, por um lado, permite que os consumidores recebam anúncios de bens e serviços de seu interesse, mas pode causar preocupação àqueles consumidores que não desejam determinados tipos de seus dados pessoais (como informações sobre visitas a sites vinculados a questões médicas e financeiras) atendidas sem o seu consentimento.

Embora o marketing comportamental direcionado seja difundido, há relativamente pouca evidência de preços individualizados no ambiente online. O relatório especula que isso pode ocorrer porque os métodos ainda estão sendo desenvolvidos ou porque as empresas estão relutantes em adotar (ou preferem ficar caladas) preços individuais, possivelmente temendo uma reação dos consumidores.

Os autores do relatório acreditam que "para o consumidor individual, o uso de big data está, sem dúvida, associado a retornos e riscos potenciais". Embora reconheça que há questões de transparência e discriminação ao usar big data, o relatório argumenta que as leis antidiscriminação e de proteção ao consumidor existentes são suficientes para resolvê-las. No entanto, o relatório também destaca a necessidade de “monitoramento contínuo” onde as empresas usam informação confidencial de forma não transparente, ou de forma não abrangida pelo quadro regulamentar existente.

Este relatório é uma continuação dos esforços da Casa Branca para estudar o uso de "big data" e preços discriminatórios na Internet e as consequências resultantes para os consumidores americanos. Anteriormente, foi informado que grupo de trabalho A Casa Branca sobre Big Data divulgou seu relatório sobre o assunto em maio de 2014. A Federal Trade Commission (FTC) também abordou essas questões durante seu workshop de setembro de 2014 sobre discriminação em relação ao uso de big data.

2014

Gartner desmistifica o Big Data

Um resumo de política do outono de 2014 do Gartner lista e desmascara uma série de mitos comuns sobre Big Data entre CIOs.

Todos implementam sistemas de processamento de Big Data mais rápido do que nós

O interesse em tecnologias de Big Data está em alta, com 73% das organizações pesquisadas pelos analistas do Gartner este ano já investindo ou planejando fazê-lo. Mas a maioria dessas iniciativas ainda está em seus estágios iniciais e apenas 13% dos pesquisados já implementaram tais soluções. A parte mais difícil é descobrir como monetizar Big Data, decidir por onde começar. Muitas organizações ficam presas na fase piloto porque não conseguem amarrar nova tecnologia para processos de negócios específicos.

Temos tantos dados que não há necessidade de se preocupar com pequenos erros nele.

Alguns CIOs acreditam que pequenas falhas nos dados não afetam os resultados gerais da análise de grandes volumes. Quando há muitos dados, cada erro separadamente afeta menos o resultado, dizem os analistas, mas os próprios erros se tornam maiores. Além disso, a maioria dos dados analisados é externa, de estrutura ou origem desconhecida, portanto a probabilidade de erros aumenta. Assim, no mundo do Big Data, a qualidade é realmente muito mais importante.

As tecnologias de Big Data eliminarão a necessidade de integração de dados

Big Data promete a capacidade de processar dados em seu formato original com geração automática de esquema à medida que são lidos. Acredita-se que isso permitirá a análise de informações das mesmas fontes usando vários modelos de dados. Muitos acreditam que isso também permitirá que os usuários finais interpretem qualquer conjunto de dados à sua maneira. Na realidade, a maioria dos usuários geralmente deseja o esquema tradicional pronto para uso, no qual os dados são formatados adequadamente e há acordo sobre o nível de integridade das informações e como elas devem se relacionar com o caso de uso.

Data warehouses não fazem sentido usar para análises complexas

Muitos administradores de sistemas de gerenciamento de informações acham que não faz sentido gastar tempo criando um data warehouse, já que sistemas analíticos complexos usam novos tipos de dados. Na verdade, muitos sistemas analíticos sofisticados usam informações de um data warehouse. Em outros casos, novos tipos de dados precisam ser preparados adicionalmente para análise em sistemas de processamento de Big Data; decisões devem ser tomadas sobre a adequação dos dados, os princípios de agregação e o nível de qualidade exigido - tal preparação pode ocorrer fora do armazém.

Data warehouses serão substituídos por data lakes

Na realidade, os fornecedores enganam os clientes ao posicionar os data lakes como substitutos do armazenamento ou como elementos críticos de uma infraestrutura analítica. As tecnologias subjacentes dos data lakes carecem da maturidade e amplitude de funcionalidades encontradas nos data warehouses. Por isso, os líderes responsáveis pela gestão dos dados devem esperar até que os lagos atinjam o mesmo nível de desenvolvimento, segundo o Gartner.

Accenture: 92% dos que implementaram sistemas de big data estão satisfeitos com o resultado

Entre as principais vantagens do big data, os entrevistados citaram:

"procurar novas fontes de renda" (56%),
"melhorar a experiência do cliente" (51%),
"novos produtos e serviços" (50%) e
"afluência de novos clientes e fidelização dos antigos" (47%).

Ao introduzir novas tecnologias, muitas empresas enfrentaram problemas tradicionais. Para 51%, o obstáculo foi a segurança, para 47% - o orçamento, para 41% - a falta de pessoal necessário e para 35% - dificuldades de integração com sistema existente. Quase todas as empresas pesquisadas (cerca de 91%) planejam resolver em breve o problema com a falta de pessoal e contratar especialistas em big data.

As empresas estão otimistas sobre o futuro das tecnologias de big data. 89% acreditam que vão mudar os negócios tanto quanto a internet. 79% dos entrevistados observaram que as empresas que não lidam com big data perderão sua vantagem competitiva.

No entanto, os entrevistados discordaram sobre o que exatamente deve ser considerado big data. 65% dos entrevistados acreditam que são “grandes arquivos de dados”, 60% têm certeza de que são “análises e análises avançadas” e 50% que são “ferramentas de visualização de dados”.

Madrid gasta 14,7 milhões de euros na gestão de big data

Em julho de 2014, ficou conhecido que Madri usaria tecnologias de big data para gerenciar a infraestrutura urbana. O custo do projeto é de 14,7 milhões de euros, e as soluções a implementar serão baseadas em tecnologias de análise e gestão de big data. Com a ajuda deles Administração Municipal gerenciará o trabalho com cada provedor de serviços e pagará de acordo com o nível de serviços.

Estamos falando de empreiteiros da administração que fiscalizam o estado das ruas, iluminação, irrigação, espaços verdes, limpam o território e retiram, além de processar o lixo. No decorrer do projeto, 300 indicadores-chave de desempenho dos serviços da cidade foram desenvolvidos para inspetores especialmente designados, com base nos quais 1,5 mil verificações e medições diversas serão realizadas diariamente. Além disso, a cidade passará a usar uma plataforma tecnológica inovadora chamada Madrid iNTeligente (MiNT) - Smarter Madrid.

2013

Especialistas: O pico da moda para Big Data

Sem exceção, todos os fornecedores do mercado de gerenciamento de dados estão desenvolvendo tecnologias para gerenciamento de Big Data. Essa nova tendência tecnológica também é discutida ativamente pela comunidade profissional, tanto desenvolvedores quanto analistas do setor e potenciais consumidores de tais soluções.

Como a Datashift descobriu, a partir de janeiro de 2013, a onda de discussão em torno de " big data"excedeu todas as dimensões concebíveis. Após analisar o número de menções de Big Data nas redes sociais, a Datashift calculou que em 2012 esse termo foi usado cerca de 2 bilhões de vezes em postagens criadas por cerca de 1 milhão de autores diferentes em todo o mundo. Isso equivale a 260 posts por hora, com pico de 3070 menções por hora.

Gartner: A cada segundo CIO está pronto para gastar dinheiro em Big Data

Após vários anos de experimentos com tecnologias de Big Data e as primeiras implementações em 2013, a adaptação de tais soluções aumentará significativamente, prevê o Gartner. Os pesquisadores entrevistaram líderes de TI em todo o mundo e descobriram que 42% dos entrevistados já investiram em tecnologias de Big Data ou planejam fazer esses investimentos no próximo ano (dados de março de 2013).

As empresas são obrigadas a gastar dinheiro em tecnologias de processamento big data Como o cenário da informação está mudando rapidamente, preciso de novas abordagens para o processamento da informação. Muitas empresas já perceberam que o big data é fundamental e trabalhar com ele permite obter benefícios que não estão disponíveis usando fontes tradicionais de informação e métodos de processamento. Além disso, o constante exagero do tema “big data” na mídia alimenta o interesse por tecnologias relevantes.

Frank Buytendijk, vice-presidente do Gartner, até pediu às empresas que diminuíssem o tom, pois algumas estão preocupadas com o fato de estarem ficando para trás dos concorrentes no domínio do big data.

“Não há necessidade de se preocupar, as possibilidades de realizar ideias baseadas em tecnologias de big data são praticamente ilimitadas”, disse ele.

O Gartner prevê que até 2015, 20% das empresas do Global 1000 terão um foco estratégico em “infraestrutura de informação”.

Antecipando as novas oportunidades que as tecnologias de processamento de big data trarão, muitas organizações já estão organizando o processo de coleta e armazenamento de diversos tipos de informações.

Para organizações educacionais e governamentais, bem como empresas do setor, o maior potencial de transformação dos negócios está na combinação de dados acumulados com os chamados dark data (literalmente - “dark data”), estes últimos incluem mensagens E-mail, multimídia e outros conteúdos semelhantes. De acordo com o Gartner, quem aprender a lidar com uma ampla variedade de fontes de informação vencerá a corrida dos dados.

Pesquisa Cisco: Big Data ajudará a aumentar os orçamentos de TI

O Cisco Connected World Technology Report (primavera de 2013) realizado em 18 países pela empresa de análise independente InsightExpress entrevistou 1.800 estudantes universitários e um número igual de jovens profissionais de 18 a 30 anos. A pesquisa foi realizada para descobrir o nível de prontidão dos departamentos de TI para a implementação de projetos big data e obter uma compreensão dos desafios associados, falhas tecnológicas e valor estratégico de tais projetos.

A maioria das empresas coleta, registra e analisa dados. No entanto, de acordo com o relatório, muitas empresas enfrentam uma série de desafios complexos de negócios e tecnologia da informação relacionados ao Big Data. Por exemplo, 60% dos entrevistados reconhecem que as soluções de Big Data podem melhorar os processos de tomada de decisão e aumentar a competitividade, mas apenas 28% disseram que já estão obtendo benefícios estratégicos reais das informações acumuladas.

Mais da metade dos CIOs pesquisados acredita que os projetos de Big Data ajudarão a aumentar os orçamentos de TI em suas organizações, pois haverá maior demanda por tecnologia, pessoal e habilidades profissionais. Ao mesmo tempo, mais da metade dos entrevistados espera que esses projetos aumentem os orçamentos de TI em suas empresas já em 2012. 57% estão confiantes de que o Big Data aumentará seus orçamentos nos próximos três anos.

81% dos entrevistados disseram que todos (ou pelo menos alguns) projetos de Big Data exigirão o uso de computação em nuvem. Então a propagação tecnologias de nuvem podem afetar a velocidade de distribuição de soluções de Big Data e o valor dessas soluções para os negócios.

As empresas coletam e usam dados dos mais tipos diferentes estruturados e não estruturados. Aqui estão as fontes das quais os participantes da pesquisa recebem dados (Cisco Connected World Technology Report):

Quase metade (48%) dos CIOs prevê que a carga em suas redes dobrará nos próximos dois anos. (Isto é especialmente verdadeiro na China, onde 68% dos entrevistados têm esse ponto de vista, e na Alemanha, 60%.) 23% dos entrevistados esperam que o tráfego de rede triplique nos próximos dois anos. Ao mesmo tempo, apenas 40% dos entrevistados declararam estar prontos para um crescimento explosivo no tráfego de rede.

27% dos entrevistados admitiram que precisam de melhores políticas de TI e medidas de segurança da informação.

21% precisam de mais largura de banda.

O Big Data abre novas oportunidades para que os departamentos de TI criem valor e construam relacionamentos próximos com as unidades de negócios para aumentar a receita e fortalecer os resultados de uma empresa. Os projetos de Big Data tornam os departamentos de TI um parceiro estratégico dos departamentos de negócios.

De acordo com 73% dos entrevistados, é o departamento de TI que se tornará o principal motor para a implementação da estratégia de Big Data. Ao mesmo tempo, os entrevistados acreditam que outros departamentos também estarão envolvidos na implementação desta estratégia. Em primeiro lugar, isso diz respeito aos departamentos de finanças (nomeados por 24 por cento dos entrevistados), pesquisa e desenvolvimento (20 por cento), operações (20 por cento), engenharia (19 por cento), bem como marketing (15 por cento) e vendas ( 14 por cento).

Gartner: Milhões de novos empregos necessários para gerenciar big data

Os gastos globais com TI atingirão US$ 3,7 bilhões até 2013, um aumento de 3,8% em relação aos gastos com TI em 2012 (a previsão para o final do ano é de US$ 3,6 bilhões). Segmento big data(big data) evoluirá em um ritmo muito mais rápido, de acordo com um relatório do Gartner.

Até 2015, 4,4 milhões de empregos na área tecnologias da informação será criado para atender big data, dos quais 1,9 milhão de empregos estão em . Além disso, cada um desses empregos gerará três empregos adicionais não relacionados à TI, de modo que, somente nos EUA, 6 milhões de pessoas trabalharão para apoiar a economia da informação nos próximos quatro anos.

Segundo especialistas do Gartner, o principal problema é que não há talento suficiente no setor para isso: tanto os sistemas educacionais privados quanto os públicos, por exemplo, nos Estados Unidos, não são capazes de fornecer ao setor um número suficiente de pessoal qualificado . Assim, dos novos empregos mencionados em TI, apenas um em cada três será fornecido com pessoal.

Os analistas acreditam que o papel de cultivar pessoal de TI qualificado deve ser assumido diretamente pelas empresas que precisam urgentemente deles, pois esses funcionários se tornarão uma passagem para eles na nova economia da informação do futuro.

2012

Primeiro ceticismo sobre Big Data

Analistas da Ovum e Gartner sugerem que para um tópico da moda em 2012 big data pode ser hora de abandonar as ilusões.

O termo "Big Data" neste momento geralmente se refere ao volume cada vez maior de informações on-line provenientes de mídias sociais, redes de sensores e outras fontes, bem como a crescente variedade de ferramentas usadas para processar dados e identificar negócios importantes a partir deles. -tendências.

“Por causa (ou apesar) do hype em torno da ideia de big data, os fabricantes em 2012 olharam para essa tendência com grande esperança”, disse Tony Bayer, analista da Ovum.

A Bayer disse que o DataSift realizou uma análise retrospectiva de referências de big data em

Big Data (ou Big Data) é um conjunto de métodos para trabalhar com grandes quantidades de informações estruturadas ou não estruturadas. Especialistas em big data estão envolvidos em seu processamento e análise para obter resultados visuais e perceptíveis por humanos. A Look At Me conversou com profissionais e descobriu qual é a situação do processamento de big data na Rússia, onde e o que é melhor estudar para quem quer trabalhar nessa área.

Alexey Ryvkin sobre as principais direções na área de big data, comunicação com clientes e o mundo dos números

Estudei no Instituto de Moscou Engenharia Eletrônica. A principal coisa que consegui tirar de lá foi o conhecimento fundamental de física e matemática. Simultaneamente aos meus estudos, trabalhei no centro de P&D, onde estava envolvido no desenvolvimento e implementação de algoritmos de codificação de correção de erros para transmissão segura de dados. Depois de me formar no bacharelado, entrei no programa de mestrado em informática de negócios na Escola Superior de Economia. Depois disso, eu queria trabalhar no IBS. Eu tive sorte que naquela época devido a grande quantidade projetos, houve um recrutamento adicional de estagiários e, após várias entrevistas, comecei a trabalhar na IBS, uma das maiores empresas russas esta área. Em três anos, passei de estagiário a arquiteto de soluções corporativas. Agora estou desenvolvendo a expertise de tecnologias de Big Data para empresas clientes dos setores financeiro e de telecomunicações.

Existem duas especializações principais para quem quer trabalhar com big data: analistas e consultores de TI que criam tecnologias para trabalhar com big data. Além disso, pode-se falar também da profissão de Analista de Big Data, ou seja, pessoas que trabalham diretamente com dados, com a plataforma de TI do cliente. Anteriormente, eram analistas matemáticos comuns que conheciam estatística e matemática e, com a ajuda de software estatístico, resolviam problemas de análise de dados. Hoje, além do conhecimento de estatística e matemática, também é necessária uma compreensão da tecnologia e do ciclo de vida dos dados. Essa, na minha opinião, é a diferença entre o Data Analyst moderno e os analistas de antes.

Minha especialização é consultoria de TI, ou seja, eu crio e ofereço aos clientes formas de resolver problemas de negócios usando tecnologias de TI. Pessoas com diferentes experiências vêm para a consultoria, mas as qualidades mais importantes para esta profissão são a capacidade de entender as necessidades do cliente, o desejo de ajudar pessoas e organizações, boa comunicação e capacidade de equipe (já que está sempre trabalhando com o cliente e em equipe), boa capacidade analítica. A motivação interna é muito importante: trabalhamos em um ambiente competitivo, e o cliente aguarda soluções inusitadas e interesse pelo trabalho.

A maior parte do meu tempo é gasto em comunicação com os clientes, formalizando suas necessidades de negócios e ajudando a desenvolver a arquitetura de tecnologia mais adequada. Os critérios de seleção aqui têm sua peculiaridade: além de funcionalidade e TCO (custo total de propriedade - o custo total de propriedade), requisitos não funcionais para o sistema são muito importantes, na maioria das vezes é tempo de resposta, tempo de processamento de informações. Para convencer o cliente, geralmente usamos a abordagem de prova de conceito - oferecemos "testar" a tecnologia gratuitamente em alguma tarefa, em um conjunto de dados restrito, para garantir que a tecnologia funcione. A solução deve criar uma vantagem competitiva para o cliente, obtendo benefícios adicionais (por exemplo, x-sell, cross-selling) ou resolver algum problema de negócios, digamos, reduzir alto nível fraude de empréstimo.

Seria muito mais fácil se os clientes chegassem com uma tarefa pronta, mas até perceberem que existe uma tecnologia revolucionária que pode mudar o mercado em alguns anos

Que problemas você tem que enfrentar? O mercado ainda não está pronto para usar tecnologias de big data. Seria muito mais fácil se os clientes chegassem com uma tarefa pronta, mas até agora não entendem que surgiu uma tecnologia revolucionária que pode mudar o mercado em alguns anos. É por isso que, de fato, trabalhamos em modo startup - não vendemos apenas tecnologias, mas sempre convencemos os clientes de que eles precisam investir nessas soluções. Essa é a posição dos visionários - mostramos aos clientes como eles podem mudar seus negócios com o envolvimento de dados e TI. Estamos criando este novo mercado - o mercado de consultoria comercial de TI na área de Big Data.

Se uma pessoa deseja se envolver em análise de dados ou consultoria de TI na área de Big Data, a primeira coisa importante é uma educação matemática ou técnica com uma boa formação matemática. Também é útil dominar tecnologias específicas, por exemplo, SAS, Hadoop, linguagem R ou soluções IBM. Além disso, você precisa estar ativamente interessado em tarefas aplicadas para Big Data - por exemplo, como elas podem ser usadas para melhorar a pontuação de crédito em um banco ou gestão ciclo da vida cliente. Esse e outros conhecimentos podem ser obtidos em fontes disponíveis: por exemplo, Coursera e Big Data University. Há também uma Iniciativa de Análise de Clientes na Wharton University of Pennsylvania, onde muito material interessante foi publicado.

Um problema sério para quem quer trabalhar na nossa área é a clara falta de informação sobre Big Data. Você não pode ir a uma livraria ou algum site e obter, por exemplo, uma coleção exaustiva de cases sobre todas as aplicações de tecnologias de Big Data em bancos. Não existem tais guias. Algumas das informações são encontradas em livros, outra parte é coletada em conferências e algumas você precisa descobrir por conta própria.

Outro problema é que os analistas se sentem confortáveis no mundo dos números, mas nem sempre nos negócios. Essas pessoas geralmente são introvertidas, têm dificuldade em se comunicar e, portanto, acham difícil comunicar de forma convincente os resultados da pesquisa aos clientes. Para desenvolver essas habilidades, eu recomendaria livros como The Pyramid Principle, Speak the Language of Diagrams. Eles ajudam a desenvolver habilidades de apresentação, expressam seus pensamentos de forma concisa e clara.

Ajudou-me muito participar em vários campeonatos de casos enquanto estudava na Escola Superior de Economia. Os campeonatos de casos são competições intelectuais para estudantes, onde você precisa estudar problemas de negócios e oferecer soluções para eles. Eles vêm em duas formas: campeonatos de casos de empresas de consultoria, como McKinsey, BCG, Accenture, e campeonatos de casos independentes, como Changellenge. Ao participar deles, aprendi a ver e decidir Tarefas desafiantes- desde a identificação do problema e sua estruturação até a defesa de recomendações para sua solução.

Oleg Mikhalsky sobre o mercado russo e as especificidades da criação de um novo produto na área de big data

Antes de ingressar na Acronis, já estava envolvido no lançamento de novos produtos no mercado em outras empresas. É sempre interessante e difícil ao mesmo tempo, então me interessei imediatamente pela oportunidade de trabalhar serviços na nuvem e soluções de armazenamento. Nessa área, toda minha experiência anterior no setor de TI foi útil, incluindo meu próprio projeto de startup I-accelerator . Também ajudou a ter uma educação empresarial (MBA) além de engenharia básica.

Na Rússia, grandes empresas - bancos, operadoras móveis etc. - há necessidade de análise de big data, então há perspectivas em nosso país para quem quer trabalhar nessa área. É verdade que muitos projetos agora são de integração, ou seja, feitos com base em desenvolvimentos estrangeiros ou tecnologias de código aberto. Nesses projetos, fundamentalmente novas abordagens e tecnologias não são criadas, mas os desenvolvimentos existentes são adaptados. Na Acronis, seguimos um caminho diferente e, após analisar as alternativas disponíveis, decidimos investir em nosso próprio desenvolvimento, criando um sistema como resultado armazenamento seguro para big data, que não é inferior em custo, por exemplo, ao Amazon S3, mas funciona de forma confiável e eficiente e em uma escala muito menor. Grandes empresas de Internet também têm seus próprios desenvolvimentos em big data, mas estão mais focadas em necessidades internas do que em atender às necessidades de clientes externos.

É importante entender as tendências e as forças econômicas que estão afetando o campo do processamento de big data. Para fazer isso, você precisa ler muito, ouvir palestras de renomados especialistas do setor de TI, participar de conferências temáticas. Agora, quase todas as conferências têm uma seção sobre Big Data, mas todas falam sobre isso de um ângulo diferente: do ponto de vista da tecnologia, negócios ou marketing. Você pode ir para um trabalho de projeto ou um estágio em uma empresa que já tem projetos sobre esse tema. Se você está confiante em suas habilidades, não é tarde demais para organizar uma startup na área de Big Data.

Sem contato constante com o mercado novo desenvolvimento risco de não ser reclamado

É verdade que quando você é responsável por um novo produto, muito tempo é gasto em análises de mercado e comunicação com clientes em potencial, parceiros, analistas profissionais que sabem muito sobre os clientes e suas necessidades. Sem contato constante com o mercado, um novo empreendimento corre o risco de não ser reclamado. Sempre há muitas incertezas: você precisa entender quem se tornará os primeiros usuários (early adopters), o que você tem de valor para eles e como atrair um público de massa. A segunda tarefa mais importante é formar e transmitir aos desenvolvedores uma visão clara e holística do produto final para motivá-los a trabalhar nessas condições, quando alguns requisitos ainda podem mudar e as prioridades dependem do feedback dos primeiros clientes. Portanto, uma tarefa importante é gerenciar as expectativas dos clientes, por um lado, e dos desenvolvedores, por outro. Para que nenhum deles perca o interesse e conclua o projeto. Após o primeiro projeto bem-sucedido, fica mais fácil e a principal tarefa será encontrar o modelo de crescimento certo para o novo negócio.

big data- Inglês. "grandes dados". O termo surgiu como uma alternativa ao SGBD e tornou-se uma das principais tendências de infraestrutura de TI quando a maioria dos gigantes do setor – IBM, Microsoft, HP, Oracle e outros passaram a utilizar esse conceito em suas estratégias. Big Data é entendido como uma enorme (centenas de terabytes) de dados que não podem ser processados de forma tradicional; às vezes - ferramentas e métodos para processar esses dados.

Exemplos de fontes de Big Data: eventos RFID, mensagens em redes sociais, estatísticas meteorológicas, informações sobre a localização de assinantes de redes móveis comunicação celular e dados de dispositivos de gravação de áudio/vídeo. Portanto, "big data" é amplamente utilizado em manufatura, saúde, administração pública, negócios na Internet - em particular, na análise do público-alvo.

Característica

Sinais de big data são definidos como "três Vs": Volume - volume (muito grande); variedade - heterogeneidade, conjunto; velocidade - velocidade (requer processamento muito rápido).

O big data geralmente não é estruturado e são necessários algoritmos especiais para processá-lo. Os métodos de análise de big data incluem:

("data mining") - um conjunto de abordagens para descobrir conhecimento útil oculto que não pode ser obtido por métodos padrão;
Crowdsourcing (crowd - “crowd”, sourcing - use como fonte) - a solução de tarefas significativas pelo esforço conjunto de voluntários que não estão em vínculo e vínculo trabalhista, coordenando as atividades por meio de ferramentas de TI;
Data Fusion & Integration ("mistura e incorporação de dados") - um conjunto de métodos para conectar várias fontes como parte de uma análise profunda;
Machine Learning (“aprendizado de máquina”) é uma subseção de pesquisa em inteligência artificial que estuda métodos para usar análises estatísticas e obter previsões baseadas em modelos básicos;
reconhecimento de padrões (por exemplo, reconhecimento de rosto no visor de uma câmera ou câmera de vídeo);
análise espacial - o uso de topologia, geometria e geografia para construir dados;
visualização de dados - saída informações analíticas na forma de ilustrações e diagramas com ferramentas interativas e animações para acompanhar os resultados e construir uma base para monitoramento posterior.

O armazenamento e a análise das informações são realizados em em grande número servidores de alto desempenho. A tecnologia chave é o Hadoop, que é de código aberto.

Como a quantidade de informações só aumentará com o tempo, a dificuldade não está em obter os dados, mas em como processá-los com o máximo benefício. Em geral, o processo de trabalhar com Big Data inclui: coletar informações, estruturá-las, criar insights e contextos e desenvolver recomendações para ação. Antes mesmo da primeira etapa, é importante definir claramente o objetivo do trabalho: para que exatamente os dados são necessários, por exemplo, para determinar o público-alvo do produto. Caso contrário, corre-se o risco de obter muitas informações sem entender exatamente como elas podem ser usadas.