Questão
2024
FGV
Comissão de Valores Mobiliários
Analista - Tecnologia da Informação - Ciências de Dados - Perfil 7 (CVM)
Cientista-Dados-Sheila251f0ae1e6a
Discursiva
A Cientista de Dados Sheila, do Banco XXX S.A., recebeu a demanda de realizar um processo de Knowledge Discovery (KDD) em um banco de dados relativo aos clientes recebedores de crédito do Banco XXX. O banco de dados está representado na tabela abaixo, na qual as colunas são, respectivamente, o código identificador do cliente, a renda mensal do cliente em reais, a idade do cliente em anos, a profissão do cliente, o tempo de relacionamento do cliente com o banco, em anos, e a informação sobre o recebimento ou não de crédito por parte do cliente.



Após uma reunião com os especialistas em crédito do banco, Sheila definiu o seguinte pré-processamento para os dados:

• aplicar uma normalização mín-máx para o atributo “Renda mensal”;

• aplicar uma discretização por intervalos iguais para o atributo “Idade”, nomeando as categorias como A, B, C e D, nessa ordem, utilizando o menor intervalo possível; e 

• aplicar uma discretização por frequência igual para o atributo “Tempo de relacionamento”, nomeando as categorias como E, F, G e H, nessa ordem.

Após o pré-processamento, Sheila selecionou, entre os atributos categóricos da tabela, o mais relevante, usando como critério aquele atributo que gerava o maior ganho de informação, considerando o atributo “Crédito” como alvo.

Diante do cenário apresentado:

a) reproduza a tabela com as etapas de pré-processamento aplicadas;

b) indique o atributo com o maior ganho de informação;

c) apresente a fórmula do ganho de informação e determine o valor do ganho de informação do atributo com o maior ganho de informação.

Valor: 20 pontos
Máximo de 30 linhas.