Metodologia de Dados
Sofia Pulse / Virtual Arena AI
Última atualização: 27 de março de 20261. Princípio Geral
A Sofia Pulse se compromete com a transparência total sobre suas fontes de dados, limitações e vieses conhecidos. Acreditamos que dados sem contexto podem ser mais prejudiciais do que úteis. Por isso, documentamos abertamente como cada fonte é coletada, processada e apresentada.
2. Fontes de Dados
📋 Vagas de Emprego
Fontes: Himalayas, RemoteOK, Arbeitnow, Careerjet, Greenhouse, Catho, InfoJobs, Adzuna e outras (~12 plataformas).
Cobertura: Global, com viés para mercados com plataformas em inglês. Países de língua inglesa (especialmente EUA) tendem a ser sobre-representados.
📄 Papers Acadêmicos
Fontes: OpenAlex (API), ArXiv.
Enriquecimento geográfico: Semantic Scholar, ROR, OpenAlex DOI.
Metodologia de contagem: Contagem por co-autoria — um paper com N autores de N países conta N vezes (uma vez por país). Isso infla os números absolutos, mas reflete participação.
📑 Patentes
Fonte: PatentsView (USPTO).
Cobertura: Primária: EUA e patentes internacionais processadas pelo USPTO. Cobertura limitada para patentes que não passam pelo sistema americano (ex.: patentes registradas apenas na China, Coreia do Sul ou Japão).
💻 GitHub
Dados: Repositórios em tendência (diário) e linguagens de programação.
Janela: 90 dias.
🌐 Sinais da Comunidade
- StackOverflow: Tags em tendência.
- HackerNews: Top stories.
- NPM / PyPI: Tendências de pacotes.
3. Metodologia de Coleta
- Automação: Coleta automatizada via cron jobs com frequência específica por fonte (diária, semanal ou mensal).
- Deduplicação: Registros duplicados são identificados e removidos com base em identificadores únicos de cada fonte.
- Normalização geográfica: Nomes de países, estados e cidades são normalizados para um padrão único (ISO 3166). Esse processo é heurístico e pode conter imprecisões.
4. Limitações Conhecidas
Documentamos abertamente as limitações dos nossos dados para que o usuário possa interpretar as informações de forma crítica:
- Viés de cobertura: Países com plataformas em inglês são sobre-representados nos dados de vagas. A cobertura de mercados em outros idiomas é parcial.
- Contagem de papers: A metodologia de co-autoria infla os números absolutos. Um paper com 10 autores de 5 países conta 5 vezes.
- Patentes USPTO: A cobertura de patentes é limitada ao USPTO. Patentes registradas exclusivamente em outros escritórios (CNIPA, KIPO, JPO) não são capturadas.
- Normalização geográfica: O processo de normalização de localizações é imperfeito. Algumas cidades ou regiões podem ser mapeadas incorretamente.
- Alinhamento mercado-academia: O cruzamento entre taxonomias de vagas e categorias de papers utiliza heurísticas de fuzzy matching, o que pode gerar falsos positivos ou negativos.
5. Scores e Métricas
Todos os scores, rankings e métricas apresentados na plataforma são construções algorítmicas — não medições absolutas. Eles representam uma modelagem computacional sobre dados públicos e devem ser interpretados como indicadores relativos, não como verdades definitivas.
Alignment Score: Utiliza fuzzy matching entre taxonomias diferentes (skills de vagas vs. categorias de papers acadêmicos). Por operar com taxonomias heterogêneas, os resultados são aproximações e não correspondências exatas.
6. Atualização dos Dados
Os dados são atualizados diariamente via collectors automatizados. Cada fonte de dados possui seu próprio ciclo de coleta (diário, semanal ou mensal). O timestamp de última coleta está disponível nos dados apresentados na plataforma, permitindo ao usuário verificar a atualidade das informações.
Dúvidas sobre os Dados
Se você identificou alguma inconsistência nos dados ou tem dúvidas sobre a metodologia, entre em contato: