ARIMA models are not perfect.

ARIMA models are usually a great and straightforward way to forecast a time series with certain assumptions. However, when these fail, ARIMA models are not able to respond properly. Let me illustrate this with a hands-on example with R. We will use the tseries and forecast packages. We immediately check that this series follows a […]

Partial Least Squares [R]

So there is little explanation needed. There are probably implementations around there, but I got bored and decided to do mine as well. May contain errors.

Benjamini–Hochberg procedure

The Benjamini-Hochberg procedure is a method to change the significance value when doing multiple hypothesis testing. The explanation to this is that if you’re doing a lot of hypothesis tests on a single dataset, you’re bound to find something. If the type I error is in one test, in different tests, the probability of rejecting […]

Random acts of Pizza

So I stumbled upon this Kaggle competition and I decided to give it a try. Original data is in JSON format and can be found in the competition website. It offers a vast amount of variables, so it is really difficult to just select a few of them. My approach was to perform sentiment analysis […]

Messing with the IGN ratings dataset

I saw this Reddit link via @TextMining_r and I couldn’t resist doing some basic experimentation related to console/platform wars. Which platform was the best in its generation? Most argue it is not about the system itself but the games, so, here is a magnificent ggplot2 graph showing the mean games score for every platform IGN […]

Knapsack 0/1 problem in Python

It’s been a while since I last posted something, but today I decided to start writing on the blog periodically again. Today, I bring a very simple implementation of the 0/1 knapsack problem in Python using a dynamic programming approach. The first chunk of code is to calculate the cost matrix. The second is to […]

Estimación no paramétrica de la función de supervivencia

Teniendo un estudio de estudio de supervivencia entre manos, puede ser complicado ajustar un modelo paramétrico a nuestros datos. Existen alternativas no paramétricas, como el estimador de Kaplan-Meier de la función de supervivencia , que se define de la siguiente manera: Suficiente teoría por hoy. Pasemos a un ejemplo práctico con R. Supongamos que tenemos […]

Tiempo residual medio

Supongamos que tenemos un estudio de análisis de supervivencia entre manos, y dada una variable que define el tiempo de vida de algo, estamos interesados en saber en cuál es el tiempo de vida esperado de un individuo dado que ya ha vivido una cantidad de tiempo . Para responder a eso recurrimos a lo […]

Bondad de Ajuste en R usando MLE y K-S.

¿Cuántas veces nos hemos encontrado delante de unos datos y nos hubiera gustado saber si siguen algún tipo de distribución concreta? Generalmente se recurre a técnicas de bondad de ajuste en paquetes ya existentes en R, pero lleva mucho tiempo comprobar *una por una*, con estimación de los posibles parámetros por medio. Escribiremos una función […]

Estimación de máxima verosimilitud usando R

No siempre se tienen expresiones explícitas para los estimadores de máxima verosimilitud, de hecho, estos casos suelen ser la orden y no la excepción. En general, se aplican técnicas de optimización numérica sobre la función de densidad propuesta. Para el ejemplo, supondremos que tenemos datos de . Los estimadores de máxima verosimilitud simultáneos no tienen […]