GP Urbanidades
Wiki de Documentação

Tabela de conteúdos

Script R para agregar CNEFE pelo setor censitário

Script R para agregar CNEFE pelo setor censitário

O script R utilizado para compilar o arquivo está nomeado como “CNEFE - Aggregate by census tract.R” e gera um arquivo chamado “Nomedomunicipio_cnefe_by_census_tracts.csv”.

Passos gerais do Script

Ele percorre os seguintes passos gerais:

Carrega todos os arquivos do CNEFE do Município indicado pelo usuário na seção “Modifique a partir daqui”. Ele identifica todos os arquivos constantes na pasta indicada e carrega cada um deles em um dataframe, por isso é importante que dentro dessa pasta só existam os arquivos TXT do CNEFE, senão o script não reconhecerá e dará erro.
Junta todos os arquivos em um único dataframe chamado cnefeComplete.
Renomeia algumas colunas para que tenham nomes mais amigáveis (por exemplo, de “X28” para “uso”).
Cria uma nova coluna com o código do setor completo. Os códigos estão desagregados em Estado, Município, …, até chegar ao código de apenas 4 dígitos do setor em si. Entretanto, os shapefiles do IBGE usam o código completo (15 dígitos) incluindo todos esses códigos concatenados.
Agrega e faz um sumário dos dados pelo setor censitário, utilizando o código criado no passo anterior. Nesse procedimento, são criados campos contendo a contagem de cada um dos usos.
Cria novos campos que agregam informações para utilização posterior. Por exemplo, as atividades comerciais são compostas pela soma de “agropecuárias” e “outros”. O mesmo vale para institucionais (saúde + ensino).
Calcula quantos usos distintos há no setor considerando a coluna usos (ver classificações abaixo);
Calcula quantos usos distintos há no setor considerando duas colunas diferentes, com prós e contras (veja descrição dos campos gerados mais abaixo).
Calcula porcentagens de cada tipo de uso em relação ao total, e usa-as para calcular diversidade, bem como medidas de “True Diversity” (Jost, 2006).
Salva como novo arquivo CSV.

Orientações sobre a localização e nome dos arquivos

Para que o Script funcione corretamente, colocar os arquivos TXT do Cnefe em uma pasta com o nome do Município, dentro de uma pasta chamada “Arquivos CNEFE originais”. Tanto ela como a pasta “R”, na qual está o script, devem estar em uma pasta destinada ao projeto sendo desenvolvido.

Exemplo:

- PASTA DO PROJETO
   |- Arquivos CNEFE originais (manter exatamente esse nome)
     |- Município 1 (Deve ser indicado abaixo na seção "Modifique aqui")
        |- Arquivo CNEFE 1.TXT
        |- Arquivo CNEFE 2.TXT
        | ...
        |- Arquivo CNEFE n.TXT
     |- Município 2
     | ...
     |- Município k
   |- R
     | - Arquivo "CNEFE - Aggregate by census tract - Geral.R" (Script)
     | - outputs (manter exatamente esse nome - deve ser criado para abrigar as tabelas criadas pelo script)

Descrição dos campos da tabela gerada pelo script

Nome do arquivo CSV gerado pelo scritpt R: “[Nome do Municipio]_cnefe_by_census_tracts.csv”

Campos do arquivo CSV

Os campos abaixo descrevem as colunas do arquivo CSV criado, a ser vinculado ao shapefile de setores censitários do IBGE.

idSetor

Código completo do setor censitário. É utilizado para fazer a vinculação (Join) no SIG;

domPartic

Quantidade de domicílios particulares no setor censitário.

domColet

Quantidade de domicílios coletivos (hoteis, alojamentos, asilos, etc.) no setor censitário.

agropec

Quantidade de agroupecuárias no setor censitário. Por algum motivo, este uso recebeu código próprio no CNEFE (provavelmente por sua importância para áreas rurais);

ensino

Quantidade de estabelecimentos de ensino no setor censitário.

saude

Quantidade de estabelecimentos de saúde no setor censitário.

outros

Quantidade de outros tipos de estabelecimento no setor censitário. Inclui usos comerciais em geral, com exceção das agropecuárias.

emConst

Quantidade de edificações em construção (consideradas a partir da existência de obras na fundação e na ausência de moradores) no setor censitário.

comercio

Quantidade de estabelecimentos comerciais (agropecuárias + outros) no setor censitário.

institut

Quantidade de estabelecimentos institucionais (ensino + saúde) no setor censitário. É uma medida aproximada, uma vez que estabelecimentos institucionais não se limitam a esses dois tipos.

total

Quantidade total de estabelecimentos no setor censitário, incluindo domicílios particulares e coletivos, além dos usos não residenciais. Exclui edificações em construção.

porcResid

porcentagem de domicílios particulares em relação ao total.

porcInstitut

porcentagem de estabelecimentos institucionais em relação ao total (aproximação).

porcHotel

porcentagem de domicílios coletivos em relação ao total.

porcComerc

porcentagem de estabelecimentos comerciais em relação ao total (aproximação).

porcNResid

porcentagem de estabelecimentos não residenciais em relação ao total. Inclui todos menos domicílios particulares.

giniSimpson

Índice Gini-Simpson de diversidade (JOST, 2006) usando uma classificação com quatro usos possíveis de determinar a partir do CNEFE (mais abaixo há dois campos que medem a diversidade com base apenas na classificação Residencial x Não Residencial).

A fórmula é: x=1-(E p_i²),onde:

E = somatória para todos tipos de usos sendo considerados.
p_i = porcentagem de cada tipo de uso sendo considerado.

Os usos sendo considerados estão agregados da seguinte forma:

Residencial;
Institucional;
Hotel;
Comercial.

giniTD

Transformação do Índice Gini-Simpson para que ele indique a “True Diversity” (Jost, 2006), isto é, para que ele possa ser corretamente comparado entre áreas diferentes. A lógica é a seguinte: uma comunidade (no caso dos estudos em Ecologia) com 8 espécies diferentes, cada uma com a mesma proporção, deveria ter uma diversidade equivalente à metade de outra comunidade com 16 espécies, cada uma com a mesma proporção. Entretanto, os índices de diversidade não costumam atender a esse requisito. Além disso (ou talvez por causa disso), o índice de Gini-Simpson não é linear (0,5 não indica o dobro da diversidade de 0,25):

So if you are a good traditional biologist you might use the popular Gini-Simpson diversity index, which is 1 - (Sum of the squares of species frequencies). Suppose that the pre-spill Gini-Simpson index is .99 and the post-spill index is .97. If you are a good traditional biologist you would figure out that this drop is statistically significant, but you would conclude that the magnitude of the drop is small. You might even say (very wrongly) that the diversity has dropped by 2%, which sounds like a small drop, nothing to worry about. The error which virtually all biologists make is that the Gini-Simpson index is not itself a diversity, and is highly nonlinear. The pre-spill community with a Gini-Simpson index of 0.99 has the same diversity as a community of 100 equally-common species. The post-spill community with a Gini-Simpson index of 0.97 has the same diversity as a community of 33 equally-common species. The difference between the pre-and post-spill diversities is in fact enormous. The drop in diversity is 66%, not 2%! This is not just a matter of different definitions of diversity, as some people would like to say. Rather, it is a matter of the indices being nonlinear with respect to our intuitive concept of diversity. (Jost: Effective number of species)

Essa natureza não linear pode complicar não apenas a interpretação do índice como as correlações.

O índice recalculado e chamado por Jost (2006) de True Diversity equivale, portanto, à quantidade de espécies presentes em uma comunidade com o mesmo índice de diversidade (calculado da maneira original, descrita acima), e com a mesma proporção entre todas as espécies (Jost, 2006, p. 364). Isso permitiria inclusive comparar resultados oriundos de índices diferentes (desde que todos fossem transformados para True Diversity), uma vez que estariam medindo a mesma coisa.

Portanto, é melhor usar este índice de True Diversity nas análises.

A fórmula é:

TD = 1-(1-x);

Onde:

TD = True Diversity;
x = resultado do cálculo do índice de Gini-Simpson em sua forma original.

giniSimpsonRNR

Índice Gini-Simpson de diversidade (JOST, 2006) usando uma classificação simplificada baseada apenas na diferenciação entre Residencial e Não Residencial. Segundo van den Hoek (2008), essa divisão é suficiente para captar o conceito de diversidade em estudos urbanísticos. Ele argumenta que a proporção de 50/50 é mantida em diversos centros urbanos como uma forma de manter a urbanidade (p. 9).

A fórmula é a mesma explicada acima, e os usos sendo considerados estão agregados da seguinte forma:

Residencial;
Não Residencial;

giniSimpsonTDNRN

Idem acima, para a classificação:

Residencial;
Não Residencial;

usos_diferentes

Quantidade de usos distintos no setor considerando a coluna “Espécie de endereço” (nos dados originais) ou “uso” (no script). Classificação:

01=domicílio particular
02=domicílio coletivo
03=estabelecimento agropecuário
04=estabelecimento de ensino
05=estabelecimento de saúde
06=estabelecimento de outras finalidades
07=edificação em construção (não é considerada, portanto o valor máximo é 6)

usos_diferentes2

Quantidade de usos distintos no setor considerando a coluna “Identificação estabelecimento” (nos dados originais) ou “IdentEstab” (no script). A ideia é que funcione como uma aproximação (ainda que grosseira) da riqueza de usos não residenciais no setor. Esse campo indica coisas como “Posto de Gasolina”. Em alguns casos, são tipos de usos assim; em outros, dá o nome do estabelecimento, o que contaria como mais um tipo de uso, o que é incorreto. Deve ser melhor estudado para verificar a validade.

(considerar a possibilidade de modificar o script para adicionar o valor 1 a esse campo, uma vez que a coluna “Identificação estabelecimento” não mostra nada para endereços residenciais, e portanto esse uso não é contabilizado.)

Observações quanto ao arquivo CSV gerado e sua importação no QGIS

Esse arquivo deve ser importado no QGIS simplesmente arrastando-o para a lista de camadas. Isso também pode ser feito através do Layer > Add Layer… > Add Vector Layer.

Um outro arquivo com o nome “cnefe_by_census_tracts” mas extensão CSVT foi criado na pasta para informar ao QGIS como interpretar os tipos dos campos. Ele deve ser renomeado manualmente para que o nome do município seja adicionado, de forma a ficar exatamente igual ao arquivo CSV criado pelo Script. Apenas o código do setor é mantido como String. Os demais são números inteiros ou reais.

Se o nome do arquivo gerado no script R for modificado, por qualquer razão, o nome do arquivo CSVT deve ser alterado também. O mesmo vale se forem criados novos campos no script R: é necessário adaptar o arquivo CSVT para se adequar à estrutura de campos e seus tipos.

Para mais detalhes sobre o uso do arquivo csvt na importação de csv no QGIS, ver aqui.

Referências

JOST, L. Entropy and diversity. Oikos, v. 113, n. 2, p. 363–375, 2006.

van den HOEK, Joost. The MXI (Mixed-use Index) as Tool for Urban Planning and Analysis. 2008. Disponível em http://www.bk.tudelft.nl/en/current/events/corporations-and-cities/publications/.