O projeto consiste em usar uma planilha de dados de uma rede de ensino com várias escolas (nome, bairro e região), etapa (primeiro ano, segundo ano, etc) e alunos (nome, idade e distorção de idade) com suas respectivas notas(quatro avaliações, incluindo média geral e recuperação), componentes curriculares (matemática, português, geografia, etc), frequências (%) e seu status de matrícula (aprovado ou reprovado). O status da matrícula é baseado na média geral e frequência, se a média geral for maior que 5 e a frequência maior que 75% o status é aprovado, caso contrário é reprovado.
Observação: se a média das 4 avaliações for menor que 5 a recuperação tem seu valor preenchido, a maior nota entre a recuperação e a média das 4 avaliações se torna a média geral. Para mais obter mais informações sobre a referida planilha e suas respectivas colunas está disponível a seguinte documentação:
https://docs.google.com/document/d/1ATPUOvvjAAppgRnT9O61_y5BvDjwg6Zyx9u9fANPGTs/edit?usp=sharing
Através desses dados é preciso usar inteligência artificial para passar por um processo de machine learning, o modelo desta planilha está disponível abaixo:
Acesso a modelo online:
https://docs.google.com/spreadsheets/d/1m8UJaxMkp5hqcmt00qQl-N17WL2Pc7W0v62s2l-0UVM/edit?usp=sharing
Após o processo de aprendizado de máquina é preciso usar inteligência artificial para complementar uma outra planilha com o mesmo formato da primeira que terá além das informações básicas (escolas (nome, bairro e região), etapa e alunos) os dados de notas incompletos com apenas a frequência parcial e notas incompletas (podendo ter apenas a primeira, segunda ou terceira nota cadastradas), ou seja, média geral, recuperação e status ainda sem essas informações, pois se trata de um canário do ano letivo ainda corrente, o modelo desta planilha está disponível abaixo:
Acesso a modelo online:
https://docs.google.com/spreadsheets/d/1QyuZYpH97H-lXTr75iQpVHgUzSOJGaB9BcPW2WmPNRM/edit?usp=sharing
Por fim, o projeto deve ser contemplado usando tecnologia Python com a biblioteca nltk (ou outro equivalente ou de melhor aplicabilidade) que deverá devolver uma terceira planilha que basicamente é a segunda, porém com as informações faltantes completaras baseadas no que foi visto no aprendizado de máquina com a primeira planilha.
O projeto precisa ser entregue usando Google Colab, pois a equipe não tem experiência, apenas uma noção de como se executa os códigos e ferramentas.
Contexto Geral do Projeto
Conseguir um algoritmo "reusável" para previsão constante de desempenho escolar através do critério de aprovação e reprovação.
Prazo de Entrega: Não estabelecido