O que são métodos de conjunto?

Os métodos de ensemble são técnicas que visam melhorar a precisão dos resultados em modelos, combinando vários modelos em vez de usar um único modelo. Os modelos combinados aumentam significativamente a precisão dos resultados. Isso aumentou a popularidade dos métodos de conjunto no aprendizado de máquina.

Métodos de conjunto

Resumo Rápido

  • Os métodos de conjunto visam melhorar a previsibilidade em modelos combinando vários modelos para fazer um modelo muito confiável.
  • Os métodos de ensemble mais populares são boosting, bagging e stacking.
  • Os métodos de ensemble são ideais para regressão e classificação, onde reduzem o viés e a variância para aumentar a precisão dos modelos.

Categorias de métodos de conjunto

Os métodos de conjunto se enquadram em duas categorias amplas, ou seja, técnicas de conjunto sequencial e técnicas de conjunto paralelo. As técnicas de conjunto sequencial geram aprendizes básicos em uma sequência, por exemplo, Adaptive Boosting (AdaBoost). A geração sequencial de alunos básicos promove a dependência entre os alunos básicos. O desempenho do modelo é então melhorado atribuindo pesos mais altos a alunos anteriormente mal representados.

Em técnicas de conjunto paralelo , os alunos básicos são gerados em um formato paralelo, por exemplo, floresta aleatória Floresta aleatória Floresta aleatória é uma técnica usada em previsões de modelagem e análise de comportamento e é construída em árvores de decisão. Uma floresta aleatória contém muitas árvores de decisão. Os métodos paralelos utilizam a geração paralela de alunos básicos para encorajar a independência entre os alunos básicos. A independência dos alunos base reduz significativamente o erro devido à aplicação de médias.

A maioria das técnicas de ensemble aplica um único algoritmo no aprendizado básico, o que resulta em homogeneidade em todos os alunos básicos. Alunos básicos homogêneos referem-se a alunos básicos do mesmo tipo, com qualidades semelhantes. Outros métodos aplicam aprendizes de base heterogênea, dando origem a conjuntos heterogêneos. Alunos de base heterogênea são alunos de tipos distintos.

Principais tipos de métodos de conjunto

1. Ensacamento

Bagging, a forma abreviada de agregação bootstrap, é principalmente aplicado em classificação e regressão. Análise de regressão A análise de regressão é um conjunto de métodos estatísticos usados ​​para a estimativa de relações entre uma variável dependente e uma ou mais variáveis ​​independentes. Pode ser utilizado para avaliar a força da relação entre as variáveis ​​e para modelar a relação futura entre elas. . Ele aumenta a precisão dos modelos por meio do uso de árvores de decisão, o que reduz a variância em grande medida. A redução da variância aumenta a precisão, eliminando assim o overfitting, que é um desafio para muitos modelos preditivos.

O ensacamento é classificado em dois tipos, ou seja, bootstrapping e agregação. Bootstrapping é uma técnica de amostragem em que as amostras são derivadas de toda a população (conjunto) usando o procedimento de substituição. O método de amostragem com reposição auxilia na randomização do procedimento de seleção. O algoritmo de aprendizado básico é executado nas amostras para concluir o procedimento.

A agregação no empacotamento é feita para incorporar todos os resultados possíveis da previsão e randomizar o resultado. Sem agregação, as previsões não serão precisas, porque todos os resultados não são levados em consideração. A agregação é, portanto, baseada nos procedimentos de bootstrap de probabilidade ou em todos os resultados dos modelos preditivos.

O ensacamento é vantajoso, pois os alunos com base fraca são combinados para formar um único aluno forte que é mais estável do que alunos isolados. Ele também elimina qualquer variação, reduzindo assim o sobreajuste dos modelos. Uma limitação do bagging é que ele é caro do ponto de vista computacional. Assim, pode levar a mais vieses nos modelos quando o procedimento adequado de ensacamento é ignorado.

2. Boosting

Boosting é uma técnica de conjunto que aprende com os erros anteriores do preditor para fazer melhores previsões no futuro. A técnica combina vários alunos de base fraca para formar um aluno forte, melhorando significativamente a previsibilidade dos modelos. O reforço funciona organizando os alunos fracos em uma sequência, de modo que os alunos fracos aprendam com o próximo aluno na sequência para criar modelos preditivos melhores.

O Boosting assume muitas formas, que incluem o boost de gradiente, o Adaptive Boosting (AdaBoost) e o XGBoost (Extreme Gradient Boosting). AdaBoost faz uso de alunos fracos que estão na forma de árvores de decisão, que geralmente incluem uma divisão que é popularmente conhecida como tocos de decisão. O toco de decisão principal do AdaBoost compreende observações com pesos semelhantes.

Aumento de gradiente Gradient Boosting O aumento de gradiente é uma técnica usada na criação de modelos para previsão. A técnica é usada principalmente em procedimentos de regressão e classificação. adiciona preditores sequencialmente ao conjunto, onde preditores anteriores corrigem seus sucessores, aumentando assim a precisão do modelo. Novos preditores são adequados para contrabalançar os efeitos de erros nos preditores anteriores. O gradiente de descida ajuda o impulsionador do gradiente a identificar problemas nas previsões dos alunos e combatê-los de acordo.

O XGBoost usa árvores de decisão com gradiente otimizado, proporcionando velocidade e desempenho aprimorados. Ele depende muito da velocidade computacional e do desempenho do modelo de destino. O treinamento do modelo deve seguir uma sequência, tornando lenta a implementação de máquinas com aumento de gradiente.

3. Empilhamento

O empilhamento, outro método de conjunto, costuma ser conhecido como generalização empilhado. Essa técnica funciona permitindo que um algoritmo de treinamento reúna várias outras previsões de algoritmos de aprendizagem semelhantes. O empilhamento foi implementado com sucesso em regressão, estimativas de densidade, aprendizado à distância e classificações. Também pode ser usado para medir a taxa de erro envolvida durante o ensacamento.

Redução de Variância

Os métodos de conjunto são ideais para reduzir a variação nos modelos, aumentando assim a precisão das previsões. A variação é eliminada quando vários modelos são combinados para formar uma única predição que é escolhida de todas as outras predições possíveis dos modelos combinados. Um conjunto de modelos é o ato de combinar vários modelos para garantir que a previsão resultante seja a melhor possível, com base na consideração de todas as previsões.

Recursos adicionais

Finanças é o fornecedor oficial da Certificação CBCA ™ de Certified Banking & Credit Analyst (CBCA) ™ O credenciamento Certified Banking & Credit Analyst (CBCA) ™ é um padrão global para analistas de crédito que cobre finanças, contabilidade, análise de crédito, análise de fluxo de caixa , modelagem de convênios, reembolsos de empréstimos e muito mais. programa de certificação, projetado para ajudar qualquer pessoa a se tornar um analista financeiro de classe mundial. Para continuar avançando em sua carreira, os recursos financeiros adicionais abaixo serão úteis:

  • Elastic Net Elastic Net A rede elástica usa linearmente as penalidades das técnicas de laço e crista para regularizar os modelos de regressão. A técnica combina o laço e
  • Overfitting Overfitting Overfitting é um termo usado em estatísticas que se refere a um erro de modelagem que ocorre quando uma função corresponde muito de perto a um determinado conjunto de dados
  • Escalabilidade Escalabilidade A escalabilidade pode cair tanto em contextos financeiros quanto de estratégia de negócios. Em ambos os casos, representa a capacidade da entidade de suportar a pressão de
  • Spoofing Spoofing Spoofing é uma prática de negociação algorítmica perturbadora que envolve fazer lances para comprar ou vender contratos futuros e cancelar os lances ou ofertas antes da execução do negócio. A prática pretende criar uma falsa imagem de demanda ou falso pessimismo no mercado.

Recomendado

O Crackstreams foi encerrado?
2022
O centro de comando do MC é seguro?
2022
Taliesin está deixando um papel crítico?
2022