# <center>**TP1**</center>

## **Partie I.** Estimation par histogramme.

Dans ce TP, nous allons considérer une population de $N$ personnes adultes, hommes et femmes. L'objectif est d'estimer la densité de probabilité qui définie la taille de cette population, mesurée en cm, en utilisant l'estimation par histogrammes.

Pour se placer dans un cadre "controlé" nous allons simuler ces données, à partir de deux distribution normales correspondantes aux deux sous-populations representées dans notre échantillon : les femmes et les hommes. Nous pourrons ainsi comparer nos résultats à la "vrai" distribution, que dans ce cas spécifique est pour nous connues.

In [None]:
# imports

import numpy as np # linear algebra
# libraries and options for plots
import seaborn as sns
import matplotlib.pyplot as plt
plt.style.use('ggplot')

Soit $\mu=178$ et $\sigma=6$ la moyenne et déviation standard de la distribution Gaussienne définissant la sous-population "hommes", et $\mu=162$ et $\sigma=7$ la moyenne et déviation standard de la distribution Gaussienne définissant la sous-population "femmes".

Pour simuler nos données, vous pouvez utiliser [`scipy.stats`](https://docs.scipy.org/doc/scipy/tutorial/stats.html), et en particulier [`scipy.stats.norm`](https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.norm.html), vu que nous nous intéressons ici à des distribution Gaussiennes (un mélange, pour être précis).

**1.** Génerer un échantillon des tailles de $N$ individus, hommes et femmes dans la même proportion. Choisissez $N$ assez grand ($N=200$ par exemple).

In [None]:
from scipy.stats import norm

# Définir ici les paramètres pour chaque souspopulation, et le nombre d'observations à générer








print(f'Nous disposons d\'un échantillon de {N} individus, dont {N_w} femmes et {N_m} hommes.')

# Génerer l'échantillon à l'aide de la fonction norm.rsv (voir la doc de scipy.stats.norm)







print(f'Les observations disponibles sont comprises dans l\'intervalle [{round(min_x,2)},{round(max_x,2)}].')

Nous allons maintenant estimer la densité des données générés par histogrammes. Pour cela il faut suivre les trois étapes vu en cours, et notamment fixer $m$, $l$ et $b$.

**2.** Définir l'intervalle $[m,m+l]$ (hypothèse de support), et le nombre total d'intérvalles que vous souhaitez considerer. Définir ensuite la discrétisation de $[m,m+l]$ par intervalles de même taille.

In [None]:


# Pour définir les intervalles, vous pouvez utiliser la fonction linespace de numpy


**3.** Génerer l'histogramme corréspondant à l'échanitllon généré et les intervalles fixé à l'étape **2.**

Pour cela, vous pouvez utiliser la fonction [histplot](https://seaborn.pydata.org/generated/seaborn.histplot.html) (de [seaborn](https://seaborn.pydata.org/index.html), une librarie python pour la visualisation des données).

In [None]:
fig, ax = plt.subplots(1, 1)

# Histogram
ax= sns.histplot(###
                 color="skyblue",
                 alpha=.5)

# On peut aussi visualiser les data sur la même figure:
ax.scatter(x,[0] * len(x),marker='x',color='r',label='données observées, $x_i$')
ax.set(xlabel='Heights', ylabel='Count')
ax.set_ylim(bottom=-1)
ax.legend(loc='best', frameon=False)

Vérifiez l'axe des ordonnées, et assurez vous que vous êtes bien en train d'observer une distribution.

**4.** Explorez les différentes options que la fonction ``histplot`` fournit pour définir les "bins". Notamment, nous avons pour l'instant donné "à la main" les limites de chaque intervalle (contenus dans la liste ``bins``). D'autres options pour obtenir les même résultats sont possibles, grâce aux argumesnt ``bins``, ``binwidth``, ``binrange``.

**5.** Faites varier le nombre de bins. Qu'est ce qu'on observe ?

**6.** Faites varier aussi la taille de l'échantillon, ainsi que la proportion d'hommes et femmes dans l'échantillon. Qu'est qu'on peut en conclure.

Nous allons enfin à observer comment les deux populations sont distribuées, en supposant connaitre le sexe de chaque participant. Nous allons aussi visualser la "vraie" densité de probabilité utilisée pour simuler les données, ainsi que la distribution estimé par histogramme. 

**7.** A  partir de l'échantillon généré, définir un dataset avec deux colonnes, la première `'Taille'` contenant la taille mésurée pour chaque individu, et la deuxième `'Sexe'` contenant l'information de groupe. 

Pour cela vous pouvez utiliser la libraire [`pandas`](https://pandas.pydata.org).

In [None]:
import pandas as pd # Library for dataset manipulation


df = pd.concat([df_men, df_women], ignore_index=True)

print(df.head())

**8** Génerer l'histogramme en stratifiant les données (vous pouvez utiliser `hue` dans le `sns.histplot`). Comparé la densité estimé et la vrai densité (utilisé `norm.pdf` de `scipy.stats`). Commenter.

In [None]:
fig, ax = plt.subplots(1, 1)

# Histogram, dividing men vs women
ax= sns.histplot(##
                 # Next arguments are just to have a nice plot
                 palette=["blue","red"],
                 alpha=.3)





# We plot the observed datapoints on the x axis
ax.scatter(men,[0] * len(men),marker='x',color='b',label='données observées, hommes')
ax.scatter(women,[0] * len(women),marker='x',color='r',label='données observées, femmes')

# And the estimated density
nu = l/b
bins = np.linspace(m, m+l, b+1)
counts = df['Height'].value_counts(bins=bins, sort=False)
f_hat = [0]+[count_i/(N*nu) for count_i in counts]
sns.lineplot(x=bins,y=f_hat, drawstyle='steps-pre', color='k', label='Densité estimée')

# Ici, ajouter le plot de la "vraie" distribution







ax.set(xlabel='Heights', ylabel='Density')
ax.set_ylim(bottom=-.002)
ax.legend(loc='upper left', bbox_to_anchor=(1, 0.5))

A nouveau, vous pouvez remarquer que la variation du nombre des bins, et de la taille de l'échantillon aura un effet sur cette estimation.