O que é Random Forest?

Floresta aleatória é uma técnica usada em previsões de modelagem e análise de comportamento e é construída em árvores de decisão. Ele contém muitas árvores de decisão que representam uma instância distinta da classificação da entrada de dados na floresta aleatória. A técnica de floresta aleatória leva em consideração as instâncias individualmente, tomando aquela com a maioria dos votos como a previsão selecionada.

Floresta Aleatória Figura 1. Estrutura da floresta aleatória (fonte)

Cada árvore nas classificações obtém dados de amostras no conjunto de dados inicial. Os recursos são então selecionados aleatoriamente, os quais são usados ​​no crescimento da árvore em cada nó. Todas as árvores da floresta não devem ser podadas até o final do exercício, quando a previsão é alcançada de forma decisiva. Dessa forma, a floresta aleatória permite que quaisquer classificadores com correlações fracas criem um classificador forte.

Resumo Rápido

  • A floresta aleatória é uma combinação de árvores de decisão que podem ser modeladas para previsão e análise de comportamento.
  • A árvore de decisão em uma floresta não pode ser podada para amostragem e, portanto, seleção de previsão.
  • A técnica de floresta aleatória pode lidar com grandes conjuntos de dados devido à sua capacidade de trabalhar com muitas variáveis ​​chegando a milhares.

Predições de modelagem

O método de floresta aleatória pode construir modelos de previsão usando árvores de regressão de floresta aleatória, que geralmente não são ajustadas para fornecer previsões fortes. O método de amostragem bootstrap é usado nas árvores de regressão, que não devem ser podadas. Os nós ideais são amostrados a partir do total de nós na árvore para formar o recurso de divisão ideal.

A técnica de amostragem aleatória usada na seleção do recurso de divisão ideal reduz a correlação e, portanto, a variância das árvores de regressão. Ele melhora a capacidade de previsão de árvores distintas na floresta. A amostragem usando bootstrap também aumenta a independência entre as árvores individuais.

Importância Variável

Variáveis ​​(recursos) são importantes para a floresta aleatória, pois é um desafio interpretar os modelos, especialmente do ponto de vista biológico. A abordagem ingênua mostra a importância das variáveis ​​ao atribuir importância a uma variável com base na frequência de sua inclusão na amostra por todas as árvores. Isso pode ser alcançado facilmente, mas apresenta um desafio, uma vez que os efeitos na redução de custos e no aumento da precisão são redundantes.

A importância da permutação é uma medida que rastreia a precisão da predição onde as variáveis ​​são permutadas aleatoriamente a partir de amostras fora do saco. A abordagem da importância da permutação funciona melhor do que a abordagem ingênua, mas tende a ser mais cara.

Devido aos desafios da floresta aleatória não ser capaz de interpretar as previsões bem o suficiente a partir das perspectivas biológicas, a técnica se baseia no ingênuo, na redução da impureza média e nas abordagens de importância da permutação para dar-lhes interpretabilidade direta aos desafios. As três abordagens suportam as variáveis ​​preditoras com várias categorias.

No caso de variáveis ​​preditoras contínuas com um número semelhante de categorias, no entanto, tanto a importância da permutação quanto as abordagens de redução média de impurezas não exibem vieses Viés de mineração de dados O viés de mineração de dados se refere a uma suposição de importância que um comerciante atribui a uma ocorrência no mercado que na verdade foi fruto do acaso ou do imprevisto. A seleção de variáveis ​​geralmente vem com viés. Para evitá-lo, deve-se conduzir a subamostragem sem substituição e, onde a inferência condicional é usada, a técnica de floresta aleatória deve ser aplicada.

Florestas Aleatórias Oblíquas

As florestas aleatórias oblíquas são únicas porque fazem uso de divisões oblíquas para decisões no lugar das divisões de decisão convencionais nos nós. As florestas oblíquas mostram muita superioridade exibindo as seguintes qualidades.

Em primeiro lugar, eles podem separar as distribuições nos eixos coordenados pelo uso de uma única divisão multivariada que incluiria as divisões alinhadas com o eixo profundo convencionalmente necessárias. Em segundo lugar, eles permitem diminuir o viés das árvores de decisão para as restrições traçadas. As divisões alinhadas ao eixo convencionais exigiriam mais dois níveis de aninhamento ao separar classes semelhantes com as divisões oblíquas, tornando-as mais fáceis e eficientes de usar.

Classificador Random Forest

O classificador de floresta aleatória é uma coleção de árvores de previsão, em que cada árvore depende de vetores aleatórios amostrados de forma independente, com distribuição semelhante com todas as outras árvores na floresta aleatória. Originalmente projetado para aprendizado de máquina, o classificador ganhou popularidade na comunidade de sensoriamento remoto, onde é aplicado na classificação de imagens de sensoriamento remoto devido à sua alta precisão. Também atinge a velocidade adequada necessária e parametrização eficiente no processo. O classificador de floresta aleatória inicializa amostras aleatórias onde a previsão com a maior votação de todas as árvores é selecionada.

A individualidade das árvores é importante em todo o processo. A individualidade de cada árvore é garantida pelas seguintes qualidades. Primeiro, cada treinamento de árvore na amostra usa subconjuntos aleatórios das amostras de treinamento inicial. Em segundo lugar, a divisão ideal é escolhida a partir dos recursos selecionados aleatoriamente dos nós da árvore não ajustados. Em terceiro lugar, toda árvore cresce sem limites e não deve ser podada de forma alguma.

Vantagens de florestas aleatórias

Florestas aleatórias apresentam estimativas de importância variável, ou seja, redes neurais. Eles também oferecem um método superior para trabalhar com dados ausentes. Os valores ausentes são substituídos pela variável que mais aparece em um nó específico. Entre todos os métodos de classificação disponíveis, as florestas aleatórias fornecem a maior precisão.

A técnica de floresta aleatória também pode lidar com big data com inúmeras variáveis ​​chegando a milhares. Ele pode balancear automaticamente conjuntos de dados quando uma classe é menos frequente do que outras classes nos dados. O método também lida com variáveis ​​rapidamente, tornando-o adequado para tarefas complicadas.

Mais recursos

Finance oferece o Financial Modeling & Valuation Analyst (FMVA) ™ FMVA® Certification Junte-se a mais de 350.600 alunos que trabalham para empresas como Amazon, JP Morgan e programa de certificação Ferrari para aqueles que procuram levar suas carreiras para o próximo nível. Para continuar aprendendo e desenvolvendo sua base de conhecimento, explore os recursos financeiros relevantes adicionais abaixo:

  • Análise de dados transversais Análise de dados transversais A análise de dados transversais é a análise de conjuntos de dados transversais. Pesquisas e registros governamentais são algumas fontes comuns de dados transversais
  • Amostragem por agrupamento Amostragem por agrupamento Em estatísticas, a amostragem por agrupamento é um método de amostragem em que toda a população do estudo é dividida em externamente homogênea, mas internamente
  • Distribuição normal Distribuição normal A distribuição normal também é conhecida como distribuição Gaussiana ou Gauss. Esse tipo de distribuição é amplamente utilizado nas ciências naturais e sociais. o
  • Critério de segurança em primeiro lugar de Roy Critério de segurança em primeiro lugar de Roy O critério de segurança em primeiro lugar de Roy é uma técnica de gerenciamento de risco usada por investidores para comparar e escolher uma carteira com base no critério de que a probabilidade

Recomendado

O Crackstreams foi encerrado?
2022
O centro de comando do MC é seguro?
2022
Taliesin está deixando um papel crítico?
2022