Metodologia de Dados

Sofia Pulse / Virtual Arena AI

Última atualização: 27 de março de 2026

1. Princípio Geral

A Sofia Pulse se compromete com a transparência total sobre suas fontes de dados, limitações e vieses conhecidos. Acreditamos que dados sem contexto podem ser mais prejudiciais do que úteis. Por isso, documentamos abertamente como cada fonte é coletada, processada e apresentada.

2. Fontes de Dados

📋 Vagas de Emprego

Fontes: Himalayas, RemoteOK, Arbeitnow, Careerjet, Greenhouse, Catho, InfoJobs, Adzuna e outras (~12 plataformas).

Cobertura: Global, com viés para mercados com plataformas em inglês. Países de língua inglesa (especialmente EUA) tendem a ser sobre-representados.

📄 Papers Acadêmicos

Fontes: OpenAlex (API), ArXiv.

Enriquecimento geográfico: Semantic Scholar, ROR, OpenAlex DOI.

Metodologia de contagem: Contagem por co-autoria — um paper com N autores de N países conta N vezes (uma vez por país). Isso infla os números absolutos, mas reflete participação.

📑 Patentes

Fonte: PatentsView (USPTO).

Cobertura: Primária: EUA e patentes internacionais processadas pelo USPTO. Cobertura limitada para patentes que não passam pelo sistema americano (ex.: patentes registradas apenas na China, Coreia do Sul ou Japão).

💻 GitHub

Dados: Repositórios em tendência (diário) e linguagens de programação.

Janela: 90 dias.

🌐 Sinais da Comunidade

StackOverflow: Tags em tendência.
HackerNews: Top stories.
NPM / PyPI: Tendências de pacotes.

3. Metodologia de Coleta

Automação: Coleta automatizada via cron jobs com frequência específica por fonte (diária, semanal ou mensal).
Deduplicação: Registros duplicados são identificados e removidos com base em identificadores únicos de cada fonte.
Normalização geográfica: Nomes de países, estados e cidades são normalizados para um padrão único (ISO 3166). Esse processo é heurístico e pode conter imprecisões.

4. Limitações Conhecidas

Documentamos abertamente as limitações dos nossos dados para que o usuário possa interpretar as informações de forma crítica:

Viés de cobertura: Países com plataformas em inglês são sobre-representados nos dados de vagas. A cobertura de mercados em outros idiomas é parcial.
Contagem de papers: A metodologia de co-autoria infla os números absolutos. Um paper com 10 autores de 5 países conta 5 vezes.
Patentes USPTO: A cobertura de patentes é limitada ao USPTO. Patentes registradas exclusivamente em outros escritórios (CNIPA, KIPO, JPO) não são capturadas.
Normalização geográfica: O processo de normalização de localizações é imperfeito. Algumas cidades ou regiões podem ser mapeadas incorretamente.
Alinhamento mercado-academia: O cruzamento entre taxonomias de vagas e categorias de papers utiliza heurísticas de fuzzy matching, o que pode gerar falsos positivos ou negativos.

5. Scores e Métricas

Todos os scores, rankings e métricas apresentados na plataforma são construções algorítmicas — não medições absolutas. Eles representam uma modelagem computacional sobre dados públicos e devem ser interpretados como indicadores relativos, não como verdades definitivas.

Alignment Score: Utiliza fuzzy matching entre taxonomias diferentes (skills de vagas vs. categorias de papers acadêmicos). Por operar com taxonomias heterogêneas, os resultados são aproximações e não correspondências exatas.

6. Atualização dos Dados

Os dados são atualizados diariamente via collectors automatizados. Cada fonte de dados possui seu próprio ciclo de coleta (diário, semanal ou mensal). O timestamp de última coleta está disponível nos dados apresentados na plataforma, permitindo ao usuário verificar a atualidade das informações.

Dúvidas sobre os Dados

Se você identificou alguma inconsistência nos dados ou tem dúvidas sobre a metodologia, entre em contato:

[email protected]