O que é Bagging (Bootstrap Aggregation)?

O aprendizado de máquina do Ensemble pode ser categorizado principalmente em bagging e boosting. A técnica de bagging é útil tanto para regressão quanto para classificação estatística. O ensacamento é usado com árvores de decisão, onde aumenta significativamente a estabilidade dos modelos na redução da variância e melhora na precisão, o que elimina o desafio do sobreajuste.

Ensacamento

Figura 1. Fluxo de Bagging (Bootstrap Aggregation). Fonte

O ensemble machine learning em conjunto requer vários modelos fracos, agregando as previsões para selecionar a melhor. Os modelos fracos se especializam em seções distintas do espaço de recursos, o que permite que as previsões de alavancagem de ensacamento venham de cada modelo para atingir a finalidade máxima.

Resumo Rápido

  • Bagging e boosting são os dois métodos principais de aprendizado de máquina de ensemble.
  • Bagging é um método de conjunto que pode ser usado em regressão e classificação.
  • Também é conhecido como agregação de bootstrap, que forma as duas classificações de bagging.

O que é Bootstrapping?

O bagging é composto por duas partes: agregação e bootstrapping. Bootstrapping é um método de amostragem, em que uma amostra é escolhida de um conjunto, usando o método de substituição. O algoritmo de aprendizagem é então executado nas amostras selecionadas.

A técnica de bootstrapping usa amostragem com substituições para tornar o procedimento de seleção completamente aleatório. Quando uma amostra é selecionada sem substituição, as seleções subsequentes de variáveis ​​são sempre dependentes das seleções anteriores, tornando os critérios não aleatórios.

O que é agregação?

As previsões do modelo passam por agregação para combiná-las para que a previsão final considere todos os resultados possíveis. A agregação pode ser feita com base no número total de resultados ou na probabilidade de predições derivadas do bootstrapping de cada modelo no procedimento.

O que é um método de conjunto?

Tanto o ensacar quanto o boosting formam as técnicas de conjunto mais proeminentes. Um método de conjunto é uma plataforma de aprendizado de máquina que ajuda vários modelos no treinamento por meio do uso do mesmo algoritmo de aprendizado. O método ensemble é um participante de um grupo maior de multiclassificadores.

Os multiclassificadores são um grupo de vários alunos, chegando a milhares, com um objetivo comum que pode fundir e resolver um problema comum. Outra categoria de multiclassificadores são os métodos híbridos. Os métodos híbridos usam um conjunto de alunos, mas ao contrário dos multiclassificadores, eles podem usar métodos de aprendizagem distintos.

O aprendizado enfrenta vários desafios, como erros que são causados ​​principalmente por vieses, ruídos e variações. A precisão e a estabilidade do aprendizado de máquina são garantidas por métodos de conjunto, como ensacamento e reforço. Combinações de vários classificadores reduzem a variância, especialmente onde os classificadores são instáveis ​​e são importantes para apresentar resultados mais confiáveis ​​do que um único classificador.

A aplicação de bagging ou boosting requer a seleção de um algoritmo básico do aluno primeiro. Por exemplo, se alguém escolher uma árvore de classificação, o boosting e o bagging seriam um conjunto de árvores com um tamanho igual à preferência do usuário.

Vantagens e desvantagens do ensacamento

Floresta aleatória Floresta aleatória A floresta aleatória é uma técnica usada em previsões de modelagem e análise de comportamento e é construída em árvores de decisão. Uma floresta aleatória contém muitas árvores de decisão é um dos algoritmos de ensacamento mais populares. O ensacamento oferece a vantagem de permitir que muitos alunos fracos combinem esforços para superar um único aluno forte. Também ajuda na redução da variância, eliminando assim o overfitting Overfitting Overfitting é um termo usado em estatísticas que se refere a um erro de modelagem que ocorre quando uma função corresponde muito de perto a um determinado conjunto de dados de modelos no procedimento.

Uma desvantagem do ensacamento é que ele introduz uma perda de interpretabilidade de um modelo. O modelo resultante pode sofrer muitos vieses quando o procedimento adequado é ignorado. Apesar de o ensacamento ser altamente preciso, pode ser caro do ponto de vista computacional e isso pode desencorajar seu uso em certos casos.

Bagging vs. Boosting

A melhor técnica a ser usada entre ensacar e aumentar depende dos dados disponíveis, simulação e quaisquer circunstâncias existentes no momento. A variância de uma estimativa é significativamente reduzida por técnicas de ensacamento e reforço durante o procedimento de combinação, aumentando assim a precisão. Portanto, os resultados obtidos demonstram maior estabilidade do que os resultados individuais.

Quando um evento apresenta o desafio de baixo desempenho, a técnica de ensacamento não resultará em melhor viés. No entanto, a técnica de boosting gera um modelo unificado com menos erros, pois se concentra na otimização das vantagens e redução de deficiências em um único modelo.

Quando o desafio em um único modelo é overfitting, o método de ensacamento tem um desempenho melhor do que a técnica de boost. O Boosting enfrenta o desafio de lidar com o sobreajuste, uma vez que vem com o sobreajuste em si.

Leituras Relacionadas

Finance oferece o Financial Modeling & Valuation Analyst (FMVA) ™ FMVA® Certification Junte-se a mais de 350.600 alunos que trabalham para empresas como Amazon, JP Morgan e programa de certificação Ferrari para aqueles que procuram levar suas carreiras para o próximo nível. Para continuar aprendendo e desenvolvendo sua base de conhecimento, explore os recursos financeiros relevantes adicionais abaixo:

  • Amostragem por agrupamento Amostragem por agrupamento Em estatísticas, a amostragem por agrupamento é um método de amostragem em que toda a população do estudo é dividida em externamente homogênea, mas internamente
  • Viés de excesso de confiança Viés de excesso de confiança O viés de excesso de confiança é uma avaliação falsa e enganosa de nossas habilidades, intelecto ou talento. Em suma, é uma crença egoísta de que somos melhores do que realmente somos. Pode ser um viés perigoso e muito prolífico em finanças comportamentais e mercados de capitais.
  • Análise de regressão Análise de regressão A análise de regressão é um conjunto de métodos estatísticos usados ​​para a estimativa de relacionamentos entre uma variável dependente e uma ou mais variáveis ​​independentes. Pode ser utilizado para avaliar a força da relação entre as variáveis ​​e para modelar a relação futura entre elas.
  • Análise de dados de série temporal Análise de dados de série temporal A análise de dados de série temporal é a análise de conjuntos de dados que mudam ao longo de um período de tempo. Os conjuntos de dados de série temporal registram observações da mesma variável em vários pontos do tempo. Os analistas financeiros usam dados de séries temporais, como movimentos de preços de ações ou vendas de uma empresa ao longo do tempo

Recomendado

O Crackstreams foi encerrado?
2022
O centro de comando do MC é seguro?
2022
Taliesin está deixando um papel crítico?
2022