A Cientista de Dados Sheila, do Banco XXX S.A., recebeu a demanda de realizar um processo de Knowledge Discovery (KDD) em um banco de dados relativo aos clientes recebedores de crédito do Banco XXX. O banco de dados está representado na tabela abaixo, na qual as colunas são, respectivamente, o código identificador do cliente, a renda mensal do cliente em reais, a idade do cliente em anos, a profissão do cliente, o tempo de relacionamento do cliente com o banco, em anos, e a informação sobre o recebimento ou não de crédito por parte do cliente.


Após uma reunião com os especialistas em crédito do banco, Sheila definiu o seguinte pré-processamento para os dados:
• aplicar uma normalização mín-máx para o atributo “Renda mensal”;
• aplicar uma discretização por intervalos iguais para o atributo “Idade”, nomeando as categorias como A, B, C e D, nessa ordem, utilizando o menor intervalo possível; e
• aplicar uma discretização por frequência igual para o atributo “Tempo de relacionamento”, nomeando as categorias como E, F, G e H, nessa ordem.
Após o pré-processamento, Sheila selecionou, entre os atributos categóricos da tabela, o mais relevante, usando como critério aquele atributo que gerava o maior ganho de informação, considerando o atributo “Crédito” como alvo.
Diante do cenário apresentado:
a) reproduza a tabela com as etapas de pré-processamento aplicadas;
b) indique o atributo com o maior ganho de informação;
c) apresente a fórmula do ganho de informação e determine o valor do ganho de informação do atributo com o maior ganho de informação.
Valor: 20 pontos
Máximo de 30 linhas.