Metodología de Datos

Sofia Pulse / Virtual Arena AI

Última actualización: 27 de marzo de 2026

1. Principio General

Sofia Pulse se compromete con la transparencia total sobre sus fuentes de datos, limitaciones y sesgos conocidos. Creemos que datos sin contexto pueden ser más perjudiciales que útiles. Por eso, documentamos abiertamente cómo cada fuente es recopilada, procesada y presentada.

2. Fuentes de Datos

📋 Vacantes de Empleo

Fuentes: Himalayas, RemoteOK, Arbeitnow, Careerjet, Greenhouse, Catho, InfoJobs, Adzuna y otras (~12 plataformas).

Cobertura: Global, con sesgo hacia mercados con plataformas en inglés. Países de habla inglesa (especialmente EE.UU.) tienden a estar sobrerrepresentados.

📄 Papers Académicos

Fuentes: OpenAlex (API), ArXiv.

Enriquecimiento geográfico: Semantic Scholar, ROR, OpenAlex DOI.

Metodología de conteo: Conteo por co-autoría — un paper con N autores de N países cuenta N veces (una vez por país). Esto infla los números absolutos, pero refleja participación.

📑 Patentes

Fuente: PatentsView (USPTO).

Cobertura: Primaria: EE.UU. y patentes internacionales procesadas por el USPTO. Cobertura limitada para patentes que no pasan por el sistema americano (ej.: patentes registradas solo en China, Corea del Sur o Japón).

💻 GitHub

Datos: Repositorios en tendencia (diario) y lenguajes de programación.

Ventana: 90 días.

🌐 Señales de la Comunidad

StackOverflow: Tags en tendencia.
HackerNews: Top stories.
NPM / PyPI: Tendencias de paquetes.

3. Metodología de Recolección

Automatización: Recolección automatizada vía cron jobs con frecuencia específica por fuente (diaria, semanal o mensual).
Deduplicación: Registros duplicados son identificados y eliminados con base en identificadores únicos de cada fuente.
Normalización geográfica: Nombres de países, estados y ciudades son normalizados a un estándar único (ISO 3166). Este proceso es heurístico y puede contener imprecisiones.

4. Limitaciones Conocidas

Documentamos abiertamente las limitaciones de nuestros datos para que el usuario pueda interpretar la información de forma crítica:

Sesgo de cobertura: Países con plataformas en inglés están sobrerrepresentados en los datos de vacantes. La cobertura de mercados en otros idiomas es parcial.
Conteo de papers: La metodología de co-autoría infla los números absolutos. Un paper con 10 autores de 5 países cuenta 5 veces.
Patentes USPTO: La cobertura de patentes está limitada al USPTO. Patentes registradas exclusivamente en otras oficinas (CNIPA, KIPO, JPO) no son capturadas.
Normalización geográfica: El proceso de normalización de ubicaciones es imperfecto. Algunas ciudades o regiones pueden ser mapeadas incorrectamente.
Alineamiento mercado-academia: El cruce entre taxonomías de vacantes y categorías de papers utiliza heurísticas de fuzzy matching, lo que puede generar falsos positivos o negativos.

5. Scores y Métricas

Todos los scores, rankings y métricas presentados en la plataforma son construcciones algorítmicas — no mediciones absolutas. Representan un modelado computacional sobre datos públicos y deben interpretarse como indicadores relativos, no como verdades definitivas.

Alignment Score: Utiliza fuzzy matching entre taxonomías diferentes (skills de vacantes vs. categorías de papers académicos). Por operar con taxonomías heterogéneas, los resultados son aproximaciones y no correspondencias exactas.

6. Actualización de los Datos

Los datos se actualizan diariamente vía collectors automatizados. Cada fuente de datos posee su propio ciclo de recolección (diario, semanal o mensual). El timestamp de última recolección está disponible en los datos presentados en la plataforma, permitiendo al usuario verificar la actualidad de la información.

Dudas sobre los Datos

Si usted identificó alguna inconsistencia en los datos o tiene dudas sobre la metodología, contacte:

[email protected]