O que é overfitting?

Overfitting é um termo usado em estatísticas que se refere a um erro de modelagem que ocorre quando uma função corresponde muito de perto a um determinado conjunto de dados. Como resultado, o sobreajuste pode não encaixar dados adicionais e isso pode afetar a precisão da previsão de observações futuras.

Sobreajuste

O overfitting pode ser identificado verificando as métricas de validação, como precisão e perda. As métricas de validação geralmente aumentam até um ponto em que estagnam ou começam a declinar quando o modelo é afetado por overfitting. Durante uma tendência de alta, o modelo busca um bom ajuste, o que, quando alcançado, faz com que a tendência comece a cair ou estagnar.

Resumo Rápido

  • Overfitting é um erro de modelagem que introduz viés ao modelo porque está muito relacionado ao conjunto de dados.
  • O overfitting torna o modelo relevante apenas para seu conjunto de dados e irrelevante para quaisquer outros conjuntos de dados.
  • Alguns dos métodos usados ​​para evitar overfitting incluem ensembling, aumento de dados, simplificação de dados e validação cruzada.

Como detectar overfitting?

Detectar overfitting é quase impossível antes de testar os dados. Isso pode ajudar a abordar a característica inerente do overfitting, que é a incapacidade de generalizar os conjuntos de dados. Os dados podem, portanto, ser separados em diferentes subconjuntos para facilitar o treinamento e o teste. Os dados são divididos em duas partes principais, ou seja, um conjunto de teste e um conjunto de treinamento.

O conjunto de treinamento representa a maioria dos dados disponíveis (cerca de 80%) e treina o modelo. O conjunto de teste representa uma pequena parte do conjunto de dados (cerca de 20%) e é usado para testar a precisão dos dados com os quais nunca interagiu antes. Ao segmentar o conjunto de dados, podemos examinar o desempenho do modelo em cada conjunto de dados para detectar o overfitting quando ele ocorre, bem como ver como funciona o processo de treinamento.

O desempenho pode ser medido usando a porcentagem de precisão observada em ambos os conjuntos de dados para concluir sobre a presença de sobreajuste. Se o modelo tiver um desempenho melhor no conjunto de treinamento do que no conjunto de teste, significa que o modelo provavelmente está sobreajuste.

Como evitar overfitting?

Abaixo estão algumas das maneiras de evitar overfitting:

1. Treinamento com mais dados

Uma das maneiras de evitar o sobreajuste é treinar com mais dados. Tal opção torna mais fácil para algoritmos Algoritmos (Algos) Algoritmos (Algos) são um conjunto de instruções que são introduzidos para realizar uma tarefa. Algoritmos são introduzidos para automatizar a negociação para gerar lucros em uma frequência impossível para um trader humano detectar o sinal melhor para minimizar os erros. À medida que o usuário insere mais dados de treinamento no modelo, ele não poderá ajustar todas as amostras e será forçado a generalizar para obter resultados.

Os usuários devem coletar continuamente mais dados como forma de aumentar a precisão do modelo. No entanto, esse método é considerado caro e, portanto, os usuários devem garantir que os dados usados ​​sejam relevantes e limpos.

2. Aumento de dados

Uma alternativa ao treinamento com mais dados é o aumento de dados, que é menos caro em comparação com o anterior. Se você não conseguir coletar mais dados continuamente, pode fazer com que os conjuntos de dados disponíveis pareçam diversos. O aumento de dados faz com que os dados de amostra pareçam ligeiramente diferentes cada vez que são processados ​​pelo modelo. O processo faz com que cada conjunto de dados pareça exclusivo para o modelo e evita que o modelo aprenda as características dos conjuntos de dados.

Outra opção que funciona da mesma maneira que o aumento de dados é adicionar ruído aos dados de entrada e saída. Adicionar ruído à entrada torna o modelo estável, sem afetar a qualidade e privacidade dos dados, enquanto adicionar ruído à saída torna os dados mais diversos. No entanto, a adição de ruído deve ser feita com moderação para que a extensão do ruído não torne os dados incorretos ou muito diferentes.

3. Simplificação de dados

O overfitting pode ocorrer devido à complexidade de um modelo, de tal forma que, mesmo com grandes volumes de dados, o modelo ainda consegue overfitting o conjunto de dados de treinamento. O método de simplificação de dados é usado para reduzir o sobreajuste, diminuindo a complexidade do modelo para torná-lo simples o suficiente para que não seja sobreajustado.

Algumas das ações que podem ser implementadas incluem a poda de uma árvore de decisão, reduzindo o número de parâmetros. Parâmetro Um parâmetro é um componente útil de análise estatística. Refere-se às características que são usadas para definir uma determinada população. É usado em uma rede neural e usando dropout em uma rede neutra. Simplificar o modelo também pode torná-lo mais leve e funcionar mais rápido.

4. Conjunto

Ensembling é uma técnica de aprendizado de máquina que funciona combinando previsões de dois ou mais modelos separados. Os métodos de agrupamento mais populares incluem reforço e ensacamento. O Boosting funciona usando modelos básicos simples para aumentar sua complexidade agregada. Ele treina um grande número de alunos fracos dispostos em uma sequência, de modo que cada aluno na sequência aprenda com os erros do aluno anterior.

O Boosting combina todos os alunos fracos na sequência para trazer à tona um aluno forte. O outro método de ensembling é ensacamento, que é o oposto de boosting. Bagging funciona treinando um grande número de alunos fortes dispostos em um padrão paralelo e combinando-os para otimizar suas previsões.

Mais recursos

Finance é o provedor oficial do Financial Modeling & Valuation Analyst (FMVA) ™ Certificação FMVA® Junte-se a mais de 350.600 alunos que trabalham para empresas como Amazon, JP Morgan e programa de certificação Ferrari, projetado para ajudar qualquer pessoa a se tornar um analista financeiro de classe mundial . Para continuar avançando em sua carreira, os recursos financeiros adicionais abaixo serão úteis:

  • Conceitos Básicos de Estatística em Finanças Conceitos Básicos de Estatística em Finanças Um conhecimento sólido de estatística é crucialmente importante para nos ajudar a compreender melhor as finanças. Além disso, os conceitos de estatísticas podem ajudar os investidores a monitorar
  • Viés de mineração de dados Viés de mineração de dados O viés de mineração de dados se refere a uma suposição de importância que um comerciante atribui a uma ocorrência no mercado que na verdade foi resultado do acaso ou imprevisto
  • Floresta aleatória Floresta aleatória A floresta aleatória é uma técnica usada em previsões de modelagem e análise de comportamento e é construída em árvores de decisão. Uma floresta aleatória contém muitas árvores de decisão
  • Probabilidade incondicional Probabilidade incondicional A probabilidade incondicional, também conhecida como probabilidade marginal, refere-se a uma probabilidade que não é afetada por eventos anteriores ou futuros. Em outras palavras,

Recomendado

O Crackstreams foi encerrado?
2022
O centro de comando do MC é seguro?
2022
Taliesin está deixando um papel crítico?
2022