viernes, 12 de septiembre de 2014

Análisis de varianza para un blog II.

Análisis de varianza para un blog II.

Categoría: 2. Ciencia y tecnología.

Un análisis atractivo para obtener información sobre el desempeño de un Blog se obtiene al tabular y graficar las entradas contra el número de ingresos. Esto permite visualizar los temas que más impactan sobre el interés de los lectores o internautas, en este caso, y que por lo tanto, se convierten en las entradas más visitadas y leídas. Es importante comentar también que un número reducido de entradas, además de indicar que su contenido es poco atractivo, indica que tal vez ni siquiera han sido leídas, ya que se debe recordar que los buscadores de internet arrojan gran cantidad de sitios para los resultados de una búsqueda y por lo tanto, algunas de las visitas sólo sirven para descartar las opciones que quedan fuera del interés particular del lector potencial.

Adelante se presenta una tabla (Tabla 1 y Figura 1) con los títulos de las entradas publicadas, un total de 90, junto con la fecha de su publicación y el número de entradas acumulado al 12 de septiembre de 2014.


Tabla 1. Título de las entradas, fecha de su publicación y número de entradas acumulado al 12 de septiembre de 2014.

Entrada
No. Ingresos
Fecha
Clases y funciones miembro. Programación en C++.
2
14/09/2011
Lluvia de ideas.
16
18/09/2011
Números aleatorios en C++.
6
18/09/2011
Las plantas almacenan energía del sol. Fotosíntesis.
118
18/09/2011
Ventana Window.
3
20/09/2011
De maquinarias aceitadas y terrenos desconocidos.
9
20/09/2011
Clados. Cladismo.
14
20/09/2011
Anticipe su bajada...
13
20/09/2011
Sobre aún trata de recobrar el control de su planta...
2
20/09/2011
Abastecimiento de suministros.
5
22/09/2011
Algo en alemán. Descubrimiento de Neptuno.
26
23/09/2011
Algunas fotografías. Ciudad de México.
3
25/09/2011
Control en linea de un reactor batch secuencial.
43
02/10/2011
Un poco de alemán. Descubrimiento de Hawai.
18
07/10/2011
Algo de cine. Labios rojos.
87
24/10/2011
Pequeño programa con calculadora.
10
27/10/2011
Un programa con MATLAB.
34
28/10/2011
Algo de cine. La vida según Attenberg.
2
02/11/2011
Estrés en plantas.
8
11/11/2011
Los símbolos, los signos, la semiología.
19
24/11/2011
Cine y libros. Coco & Igor. Bukowski.
7
05/01/2012
Algo sobre libros y cine Bukowski. En un mundo mejor.
3
08/01/2012
De cine. Afuera de Satán.
3
25/01/2012
Gestión Ambiental.
23
26/01/2012
Cultivo de tejidos vegetales. Formulaciones para soluciones madre (Murashige & Skoog 1962).
80
31/01/2012
Cine y libros. La chica del dragón tatuado. Maimónides.
2
31/01/2012
Algo sobre Maimónides y de Erich Fromm.
31
16/02/2012
Algo de cine. La cueva de los sueños olvidados.
3
16/02/2012
Programación en cpp.
3
03/04/2012
Tecnología prehispánica para el futuro.
28
07/04/2012
Algo de cine. Aquí entre nos!
7
08/04/2012
Alvar Núñez en Ojinaga.
7
11/04/2012
Vivir bien. Sentirse bien. Vivir bien.
16
13/04/2012
El hubiera no existe ¿Por qué?
5
14/04/2012
Ecología cultural y ecología urbana.
33
24/04/2012
Mainz, Renania Palatinado.
7
25/04/2012
Lago Baikal y otros sitios.
37
28/04/2012
Un poco de cine. Belle Epoque.
7
29/04/2012
Imágenes en movimiento. Programa para Arduino.
84
29/06/2012
Ciudades Utopía.
8
18/07/2012
Clichés, Estereotipos.
27
25/08/2012
Dado Electrónico.
207
25/08/2012
Proyectos de electrónica con Arduino.
92
26/08/2012
Registro de datos a una micro SD.
271
01/09/2012
Manejo de la micro SD del Shield Ethernet.
118
06/09/2012
Diseño de un pulsador con C++.
41
22/10/2012
Algo sobre la poinsettia.
41
30/11/2012
Hugo Cabret.
13
15/12/2012
Sensor analógico y señal luminosa con Arduino UNO.
16
31/05/2013
El dust bowl. Erosión.
11
07/06/2013
Monografía de la alfalfa I.
24
18/06/2013
Monografía de la alfalfa II.
80
19/06/2013
Sensores para cultivar plantas.
9
01/07/2013
La línea de vegetación arbórea.
16
18/08/2013
Diseño de reactores. Parte 2. Reactor tubular.
63
08/09/2013
Diseño de reactores. Parte 1. Introducción.
97
08/09/2013
Análisis de varianza para un Blog.
25
08/09/2013
Diseño de reactores. Parte 20. Parámetros biocinéticos. Cinética de degradación con inhibición tipo Haldane.
17
24/09/2013
Diseño de reactores. Parte 19. Parámetros biocinéticos. Comportamiento de un reactor biológico por lote.
65
24/09/2013
Diseño de reactores. Parte 18. Parámetros biocinéticos. Comparación del modelo con datos experimentales.
16
24/09/2013
Diseño de reactores. Parte 17. Determinación de parámetros biocinéticos.
33
24/09/2013
Diseño de reactores. Parte 16. Serie de reactores continuos en mezcla completa.
10
24/09/2013
Diseño de reactores. Parte 15. Serie de reactores continuos en mezcla completa.
37
24/09/2013
Diseño de reactores. Parte 14. Degradación de un contaminante en un reactor tipo pistón.
5
24/09/2013
Diseño de reactores. Parte 13. Variación del sustrato en un reactor continuo de mezcla completa.
15
24/09/2013
Diseño de reactores. Parte 12. Comportamiento de un trazador en un reactor continuo con mezcla completa.
13
24/09/2013
Diseño de reactores. Parte 11. Desempeño de un reactor por lote.
4
24/09/2013
Diseño de reactores. Parte 10. Cinética de degradación de orden variable.
4
24/09/2013
Diseño de reactores. Parte 9. Cinética de degradación de orden uno.
5
24/09/2013
Diseño de reactores. Parte 8. Cinética de degradación de orden uno.
17
24/09/2013
Diseño de reactores. Parte 7. Cinética de degradación de orden cero.
46
24/09/2013
Diseño de reactores. Parte 6. Una aplicación en modelación de contaminantes atmosféricos.
47
24/09/2013
Diseño de reactores. Parte 5. Una aplicación en ecología de poblaciones.
44
24/09/2013
Diseño de reactores. Parte 4. Reactor isotérmico de flujo continuo en fase gaseosa.
23
24/09/2013
Diseño de reactores. Parte 3. Reactor isotérmico de flujo continuo.
185
24/09/2013
Diseño de reactores. Parte 24. Lodos activados. Efecto de la temperatura.
30
25/09/2013
Diseño de reactores. Parte 23. Lodos activados. Variación de Qr y Qw.
16
25/09/2013
Diseño de reactores. Parte 22. Lodos activados. Efecto de la variación del caudal de desecho.
27
25/09/2013
Diseño de reactores. Parte 21. Modelación del proceso de lodos activados.
32
25/09/2013
Ecología urbana. La huella de carbono.
26
28/09/2013
Ecología urbana. La importancia de ser eficientes.
40
28/09/2013
La epistemología en la práctica.
15
05/11/2013
Ciclo del agua.
26
23/12/2013
Co-Evolución. Una historia de murciélagos.
36
12/02/2014
Calibración de un termistor.
4
29/07/2014
Censado de datos. Monitorea un ambiente.
6
29/07/2014
Balance global de agua.
4
04/08/2014
Python básico para estadística.
16
15/08/2014
La energía solar y los invernaderos.
19
29/08/2014
Biocombustibles. Especies de ciclo corto y especies perennes.
6
12/09/2014





Figura 1. Título de las entradas, fecha de su publicación y número de entradas acumulado al 12 de septiembre de 2014.


A partir de este análisis preliminar es posible poner el énfasis en los temas que han sido más exitosos, en términos del mayor número de visitas. Para esto se puede proceder de manera inicial clasificando las entradas en grupos y obtener las sumas parciales de número de visitantes.

El número de ingresos por tema (Tabla 2) se distribuye de la siguiente manera:

Tema No. Ingresos. No. Entradas. Ingresos / Entrada.
Tema 1. Programación y electrónica. 896 13 68.92
Tema 2. Ciencia y tecnología. 1566 48 32.63
Tema 3. Humanidades y comportamiento humano. 276 19 14.53
Tema 4. Cine y literatura. 134 10 13.40


Los datos anteriores sugieren que existe una clara preferencia por algunos temas sobre otros. Además se debe notar que el título de las entradas parece tener un cierto efecto sobre la atracción de visitantes a su lectura, por ejemplo, en el tema 4 (Cine y literatura), se tienen números de visitantes más bajos, pero también hay una entrada que tuvo gran número de visitas, es el caso de la entrada titulada "Algo de cine. Labios rojos." con 87 entradas acumuladas. Tal vez las mujeres que buscan consejos para el uso de sus cosméticos pueden estar ingresando, aunque se encuentran con que el tema no corresponde con el de su búsqueda. Es posible también, que los buscadores de temas de carácter erótico se estén encontrando con esta entrada, de acuerdo con las palabras clave que utilicen en su búsqueda. Esto debe tomarse en cuenta para no atraer la atención de lectores que buscan con palabras que corresponden a su criterio de interés y que se encuentren de pronto en un sitio que no tiene el mismo tema de interés.

Análisis de varianza.

El análisis de varianza se realizó mediante un programa para MATLAB. Este análisis compara el número de ingresos para cada tema mediante la hipótesis nula Ho : µ1=µ2=µ3=µ4. La instrucción anova1(X,group) genera un análisis de varianza para datos desbalanceados, genera una tabla de resultados del análisis de varianza (Tabla 6) y un gráfico de cajas (Figura 4) para los datos proporcionados en la matriz X. El gráfico de cajas muestra el valor promedio de ingresos, el tercer cuartil, el intervalo de confianza al 95% y los valores extremos - y +. El código de MATLAB para realizar este análisis de varianza es el siguiente:

X=[16 6 15 13;6 19 27 7;16 4 8 7;41 4 37 3;118 36 7 2;271 26 5 3;92 26 16 3;207 40 7 7;84 30 31 2;3 16 19 87;34 27 18 NaN;6 32 3 NaN;2 17 26 NaN;NaN 65 3 NaN;NaN 16 9 NaN;NaN 33 14 NaN;NaN 10 13 NaN;NaN 37 2 NaN;NaN 5 16 NaN;NaN 15 NaN NaN;NaN 13 NaN NaN;NaN 4 NaN NaN;NaN 4 NaN NaN;NaN 5 NaN NaN;NaN 17 NaN NaN;NaN 46 NaN NaN;NaN 47 NaN NaN;NaN 44 NaN NaN;NaN 23 NaN NaN;NaN 185 NaN NaN;NaN 63 NaN NaN;NaN 97 NaN NaN; NaN 25 NaN NaN;NaN 16 NaN NaN;NaN 9 NaN NaN;NaN 80 NaN NaN;NaN 24 NaN NaN;NaN 11 NaN NaN;NaN 41 NaN NaN;NaN 33 NaN NaN;NaN 28 NaN NaN;NaN 80 NaN NaN;NaN 23 NaN NaN;NaN 8 NaN NaN;NaN 10 NaN NaN;NaN 43 NaN NaN;NaN 5 NaN NaN;NaN 118 NaN NaN]
A=[1 2 3 4];
[p, table]=anova1(X,A)
xlabel('Tema de entrada')
ylabel('Numer de ingresos')
text(2, 100, 'Grafico de ingresos por tema')



Figura 2. Resultado del análisis de varianza para número de entradas por tema.


Figura 3. Gráfico de cajas para número de entradas por tema.


Como puede verse en la Figura 2, el valor de p=0.024 indica que el estadístico de prueba cae dentro de la zona de rechazo de Ho, de manera que los temas son estadísticamente diferentes en el número de ingresos, con una significancia de 95%. En la figura 3 se observa el gráfico de cajas para los datos número de ingresos contra tema de la entrada.

Las conclusiones estadísticas obtenidas mediante la técnica del análisis de varianza eran hasta cierto punto evidentes desde el inicio. Sin embargo, otras conclusiones igualmente útiles pueden no ser tan obvias en un primer vistazo de los datos. Por ejemplo, ahora se va a hacer un análisis del número de ingresos contra la antigüedad de la entrada. En primer lugar, se acomodan los datos para mostrarlos en un formato más cómodo para el lector. El presentar los datos con un formato dedicado a mostrar una relación posible con algún factor en estudio, es una técnica que permite visualizar un posible comportamiento, que de otra manera permanecería oculto para el lector menos familiarizado con el tema o con las técnicas de análisis de datos.


Figura 4. Número de ingresos contra tema de la entrada y línea de tendencia obtenida por regresión lineal.

La línea de tendencia (recta), obtenida por regresión lineal por mínimos cuadrados, muestra un valor de pendiente sumamente bajo (Figura 4), como se comentó antes y el coeficiente de correlación (R^2) también sumamente bajo. Con esto se refuerza la conclusión de que el número de ingresos no depende de la antigüedad de la entrada.

Conclusiones.
• El tema de las entradas es el factor principal que determina el número de ingresos para cada entrada del Blog.

• El título de las entradas es importante para evitar atraer lectores que realmente no están interesados en el tema que se trata. Esto es importante, pues las personas que no encuentran el material que requieren, permanecen poco tiempo, no leen realmente la entrada y es menos probable que se enlacen con alguna página de los anunciantes que aparecen en ese momento en el Blog.

• Las personas que ingresan en las diferentes entradas del Blog, pero no lo leen, por tener otros intereses en mente, son un factor de sesgo para la popularidad del Blog. Puede parecer que una entrada sea leída muy frecuentemente cuando en realidad la mayoría de los ingresos fueron por equivocación, por una asociación correcta del buscador con los criterios de búsqueda, pero una asociación incorrecta del título de la entrada con su contenido.

• La antigüedad de la entrada no es un factor que determine el número de ingresos hacia una entrada en particular.

• Estas conclusiones son semejantes a las obtenidas en un ejercicio similar realizado anteriormente para este mismo blog: "Análisis de varianza para un blog".



Bibliografía
Baker, Stephen. 2009. Los numerati. Editorial Planeta. México.
Montgomery, Douglas C., y George C. Runger. 1996. Probabilidad y estadística aplicadas a la ingeniería. McGraw-Hill. México.

Procesamiento de los datos
En el procesamiento de los datos se emplearon los programas computacionales Microsoft Word 2010, Microsoft Office Excel 2010 y MATLAB.








No hay comentarios:

Publicar un comentario