Filtrer
Support
Éditeurs
Technip
-
Modélisation prédictive et apprentissage statistique avec R
Stéphane Tufféry
- Technip
- Statistiques
- 25 Juillet 2017
- 9782710811787
Issu de formations devant des publics variés, cet ouvrage présente les principales méthodes de modélisation statistique et de machine learning, à travers le fil conducteur d'une étude de cas. Chaque méthode fait l'objet d'un rappel de cours et est accompagnée de références bibliographiques, puis est mise en oeuvre avec des explications détaillées sur les calculs effectués, les interprétations des résultats et jusqu'aux astuces de programmation permettant d'optimiser les temps de calcul. À ce sujet, une annexe est consacrée au traitement des données massives.
L'ouvrage commence par les méthodes de classement classiques et les plus éprouvées, mais aborde rapidement les méthodes plus récentes et les plus avancées : régression ridge, lasso, elastic net, boosting, forêts aléatoires, Extra-Trees, réseaux de neurones, séparateurs à vaste marge (SVM). A chaque fois, le lien est fait entre la théorie et les résultats obtenus pour montrer qu'ils illustrent bien les principes sous-jacents à ces méthodes. L'aspect pratique est aussi privilégié, avec l'objectif de permettre au lecteur une mise en oeuvre rapide et efficace dans son travail concret. L'exploration et la préparation préliminaire des données sont d'ailleurs décrites, ainsi que le processus de sélection des variables. Une synthèse finale est faite de toutes les méthodes présentées et de leurs points forts.
La mise en oeuvre s'appuie sur le logiciel libre R et sur un jeu de données public. Ce dernier peut être téléchargé sur Internet et présente l'intérêt d'être riche, complet et de permettre des comparaisons grâce aux nombreuses publications dans lesquelles il est cité. Quant au logiciel statistique R, non seulement il est devenu la lingua franca de la statistique et de la data science et le logiciel le plus répandu dans le monde universitaire, mais il a aussi conquis le monde de l'entreprise, à tel point que tous les logiciels commerciaux proposent désormais une interface avec R (ce point est abordé dans une annexe). Outre qu'il est disponible pour tous, dans tous les environnements, il est aussi le plus riche statistiquement et c'est le seul logiciel permettant de mettre en oeuvre toutes les méthodes présentées dans cet ouvrage. Enfin, son langage de programmation particulièrement élégant et adapté au calcul mathématique permet de se concentrer dans le codage sur les aspects statistiques sans les difficultés de programmation rencontrées avec d'autres logiciels. R permet d'arriver directement à l'essentiel et de mieux comprendre les méthodes exposées dans l'ouvrage.
Le Code R utilisé dans l'ouvrage est disponible sur cette page dans la partie "Bonus/lire".
-
Data mining et statistique décisionnelle : la science des données
Stéphane Tufféry
- Technip
- Statistiques
- 14 Octobre 2017
- 9782710811800
Le data mining et la data science sont de plus en plus répandus dans les entreprises et les organisations soucieuses d'extraire l'information pertinente de leurs bases de données, qu'elles peuvent utiliser pour expliquer et prévoir les phénomènes qui les concernent (risques, production, consommation, fidélisation...).
Cette cinquième édition, actualisée et augmentée de 90 pages, fait le point sur le data mining, ses méthodes, ses outils et ses applications, qui vont du scoring jusqu'au text mining, objet d'un chapitre complètement remanié. Nombre de ses outils appartiennent à l'analyse des données et à la statistique « classiques » (analyse factorielle, classification automatique, analyse discriminante, régression logistique, modèles linéaires généralisés, régression pénalisée, régression clusterwise...) mais certains sont plus spécifiques au data mining, comme les réseaux de neurones, les algorithmes génétiques, les SVM, les arbres de décision, les forêts aléatoires, le boosting et la détection des règles d'associations. Les avancées les plus récentes du machine learning et les applications les plus actuelles des Big Data sont présentées, qui vont des algorithmes de reconnaissance d'image aux méthodes de plongement de mots en text mining. Les chapitres sur les réseaux de neurones et les SVM sont illustrés par la reconnaissance de l'écriture manuscrite.
Ces outils sont disponibles dans des logiciels de plus en plus puissants et complets, à commencer par le logiciel libre R, que nous comparons en détail aux logiciels SAS et IBM SPSS dans un chapitre spécifique. Ces logiciels sont utilisés pour illustrer par des exemples précis les explications théoriques données.
Les aspects méthodologiques vont de la conduite des projets jusqu'aux facteurs de réussite et aux pièges à éviter, en passant par l'évaluation et la comparaison des modèles, leur intégration dans les processus opérationnels. Un chapitre est consacré à une étude de cas complète de credit scoring, de l'exploration des données jusqu'à l'élaboration de la grille de score.
-
Big data, machine learning et apprentissage profond
Stéphane Tufféry
- Technip
- Statistiques
- 15 Avril 2019
- 9782710811886
Cet ouvrage montre comment appliquer les méthodes de machine learning aux Big Data, et comment appliquer les méthodes plus spécifiques de deep learning aux problèmes plus complexes relevant de l'intelligence artificielle, tels que la reconnaissance d'image et le traitement du langage naturel.
Ces méthodes sont ensuite mises en oeuvre avec trois des principales bibliothèques d'apprentissage profond : MXNet, PyTorch et Keras-TensorFlow.
-
étude de cas en statistique décisionnelle
Stéphane Tufféry
- Technip
- Statistiques
- 4 Décembre 2019
- 9782710811879
Comprendre les principes théoriques de la statistique est une chose ; savoir les mettre en pratique en est une autre, et le fossé peut être large entre les deux.
C'est pour aider le lecteur à le franchir que l'auteur a écrit un ouvrage de "travaux pratiques" de la statistique décisionnelle, qui fait suite à son ouvrage de cours, Data Mining et statistique décisionnelle, paru dans la même collection.
-
Probabilités, analyse des données et statistique
Gilbert Saporta
- Technip
- Statistiques
- 26 Juillet 2011
- 9782710809807
La démarche statistique n'est pas seulement une auxiliaire des sciences destinée à valider ou non des modèles préétablis, c'est aussi une méthodologie indispensable pour extraire des connaissances à partir de données et un élément essentiel pour la prise de décision. La très large diffusion d'outils informatiques peut donner l'illusion de la facilité à ceux qui n'en connaissent pas les limites, alors que la statistique est plus que jamais un mode de pensée fondamental pour maîtriser la complexité, l'aléatoire et les risques, en donnant la prudence scientifique nécessaire.
Ce manuel présente l'ensemble des connaissances utiles pour pouvoir pratiquer la statistique. Il est destiné à un vaste public (étudiants, chercheurs, praticiens de toutes disciplines) possédant le niveau d'algèbre et d'analyse d'un premier cycle universitaire scientifique ou économique.
Cette nouvelle édition est une révision complète, avec des ajouts, de l'édition de 1990 et comporte de nombreux développements sur des méthodes récentes. Les 21 chapitres sont structurés en cinq parties : outils probabilistes, analyse exploratoire, statistique inférentielle, modèles prédictifs et recueil de données. On y trouve l'essentiel de la théorie des probabilités, les différentes méthodes d'analyse exploratoire des données (analyses factorielles et classification), la statistique "classique" avec l'estimation et les tests mais aussi les méthodes basées sur la simulation, la régression linéaire et logistique ainsi que des techniques non linéaires, la théorie des sondages et la construction de plans d'expériences.
-
La régression PLS : théorie et pratique
Michel Tenenhaus
- Technip
- Statistiques
- 4 Août 1998
- 9782710807353
La régression PLS (Partial Least Squares) est une méthode d'analyse des données qui connaît de grands développements, principalement dans le domaine des industries chimiques, pétrolières et agro-alimentaires. Sur le plan théorique, l'ouvrage a trois objectifs : situer la régression PLS parmi les méthodes d'association et de prédiction en analyse des données ; décrire l'algorithme de régression PLS dans sa forme originale telle qu'elle est programmée dans des logiciels comme SIMCA ou The Unscrambler ; présenter en détail les principales propriétés mathématiques de la régression PLS. Sur le plan pratique, l'ouvrage illustre l'apport de la régression PLS en l'utilisant sur de nombreux exemples et décrit avec un maximum de détails les sorties du logiciel de référence (SIMCA) à partir de ces exemples. Ainsi, un utilisateur de la régression PLS trouve dans ce livre toute l'aide nécessaire pour une exploitation optimale des résultats.
"Ce livre clair, agréable à lire, et dont la calligraphie est excellente constitue une remarquable synthèse sur les méthodes PLS et, de façon plus générale, sur les techniques de liaison entre deux ensembles de variables, avec un grand nombre de résultats nouveaux" (Revue de Statistique Appliquée, mars 1999).
-
Média planning fondements conceptuels et méthodologiques
Jean-francois Ganguilhem, Marie-Pierre Cueff
- Technip
- Statistiques
- 13 Juillet 2018
- 9782710811831
Le médiaplanning a pour but de prévoir le retour sur investissement d'une campagne publicitaire d'un annonceur, en termes de nombre d'individus touchés et de nombre de contacts distribués. Il permet d'évaluer, à l'avance et en chiffres, le résultat d'un plan média sur une cible déterminée.
-
Probabilités : exercices corrigés
Dariush Ghorbanzadeh
- Technip
- Statistiques
- 13 Novembre 1998
- 9782710807476
Fruit d'une longue expérience d'enseignement des probabilités-statistiques au sein de l'Institut d'Informatique d'Entreprise et de l'ESCPI Ingénieurs 2000 (CNAM), cet ouvrage s'adresse aux élèves des écoles d'ingénieurs, aux étudiants en mathématiques appliquées et aux ingénieurs et techniciens non spécialistes en la matière. Son contenu et sa forme pédagogique facilitent l'assimilation de la théorie probabiliste, en particulier de certains thèmes difficiles tels le calcul de loi, le conditionnement et les notions d'asymptotique. Il introduit également au domaine des applications en statistiques et en fiabilité. Les exercices abordent des sujets classiques comme les lois usuelles et les vecteurs gaussiens et d'autres plus spécifiques comme la détection de rupture, sujet actuellement leader en matière de recherche.
-
Approches statistiques du risque
Jean-Jacques Droesbeke, Gilbert Saporta, Christine Thomas-agnan
- Technip
- Statistiques
- 1 Juillet 2014
- 9782710809654
L 'actualité nous renvoie tous les jours une facette du risque : crise financière, accidents d'avion, dérapages du changement climatique, etc.
Quel est le rôle joué par la statistique dans l'analyse de ces risques et quels sont les outils spécifiquement développés pour cela ?
Cet ouvrage est consacré à une présentation des fondements méthodologiques classiques mais aussi récents, et présente des applications à des domaines variés.
-
Les nombres au quotidien : leur histoire, leurs usages
Jean-Jacques Droesbeke, Catherine Vermandele
- Technip
- Statistiques
- 1 Novembre 2016
- 9782710811763
Il est bien connu que la manière de présenter des informations quantitatives dans les médias ou les revues spécialisées n'est pas toujours claire, complète, voire rigoureuse. Il est d'ailleurs fréquent que cette information ne soit pas appréciée à sa juste valeur ou même qu'elle soit fausse.
Les raisons de cette situation sont multiples : déficience des sources, formation insuffisante des auteurs des rubriques, usage erroné des termes utilisés... De nombreux exemples concernent des notions aussi courantes que proportion, moyenne, corrélation... mais aussi des représentations sous forme de tableaux ou de graphiques.
En outre, trop de personnes ignorent dans quel contexte ces notions ont été introduites et peuvent difficilement mesurer leur pertinence quotidienne. Cet ouvrage est destiné à les prémunir de mauvais emplois ou d'interprétations douteuses à partir d'exemples concrets et d'une approche historique des concepts concernés.
Cet ouvrage est le premier livre de la collection « La statistique autrement » de la Société Française de Statistique. Cette collection a pour ambition de proposer des ouvrages accessibles à un large public en suivant une démarche originale.
La Société Française de Statistique (SFdS), association reconnue d'utilité publique, a pour objectif de favoriser les développements de la statistique et d'assurer la représentation de l'ensemble des utilisateurs, enseignants et chercheurs dans ce domaine.
-
Les sondages pas à pas
Pascal Ardilly, Pierre Lavallée
- Technip
- Statistiques
- 28 Septembre 2017
- 9782710811794
Pour réaliser une enquête par sondage, la procédure de référence suppose que la composition de l'échantillon relève du hasard. Un premier enjeu de fond consiste à faire en sorte que ce hasard reste sous contrôle du statisticien d'enquête. Par ailleurs, ce dernier peut tirer bénéfice de techniques variées visant à réduire les risques véhiculés par le hasard : c'est ainsi qu'il dispose de méthodes d'échantillonnage performantes et adaptées à différents contextes, et qu'il peut effectuer des redressements pour réduire l'effet néfaste dû aux aléas d'échantillonnage. Il doit par ailleurs affronter des éléments perturbateurs, comme la non-réponse ou l'introduction d'autres formes d'erreurs. En phase finale, il mesure la qualité des statistiques produites.
Afin d'éclairer tous ces aspects, cet ouvrage de niveau introductif présente les bases de la théorie des sondages et les bonnes pratiques qui l'accompagnent, en incluant les aspects de terrain portant sur la conception du questionnaire et sur la collecte des données. Les propos sont illustrés au travers d'un scénario consacré à « l'enquête sur les déplacements dans la ville de Mégapolis ». Cette enquête s'avère propice aux questionnements et solutions que l'on retrouve dans la plupart des enquêtes réelles. Ville fictive, enquête fictive, personnages fictifs certes, mais qui aident à bien comprendre la problématique de la conception d'enquête.
-
Model choice and model aggregation
Frédéric Bertrand, Jean-Jacques Droesbeke, Gilbert Saporta, Christine Thomas-agnan
- Technip
- Statistiques
- 28 Septembre 2017
- 9782710811770
For over fourty years, choosing a statistical model thanks to data consisted in optimizing a criterion based on penalized likelihood (H. Akaike, 1973) or penalized least squares (C. Mallows, 1973). These methods are valid for predictive model choice (regression, classification) and for descriptive models (clustering, mixtures). Most of their properties are asymptotic, but a non asymptotic theory has emerged at the end of the last century (Birgé-Massart, 1997). Instead of choosing the best model among several candidates, model aggregation combines different models, often linearly, allowing better predictions. Bayesian statistics provide a useful framework for model choice and model aggregation with Bayesian Model Averaging.
In a purely predictive context and with very few assumptions, ensemble methods or meta-algorithms, such as boosting and random forests, have proven their efficiency.
This volume originates from the collaboration of high-level specialists: Christophe Biernacki (Université de Lille I), Jean-Michel Marin (Université de Montpellier), Pascal Massart (Université de Paris-Sud), Cathy Maugis-Rabusseau (INSA de Toulouse), Mathilde Mougeot (Université Paris Diderot), and Nicolas Vayatis (École Normale Supérieure de Cachan) who were all speakers at the 16th biennal workshop on advanced statistics organized by the French Statistical Society. In this book, the reader will find a synthesis of the methodologies' foundations and of recent work and applications in various fields.
The French Statistical Society (SFdS) is a non-profit organization that promotes the development of statistics, as well as a professional body for all kinds of statisticians working in public and private sectors. Founded in 1997, SFdS is the heir of the Société de Statistique de Paris, established in 1860. SFdS is a corporate member of the International Statistical Institute and a founding member of FENStatS-the Federation of European National Statistical Societies.
-
Data science par analyse des données symboliques
Filipe Afonso, Edwin Diday, Carole Toque
- Technip
- Statistiques
- 25 Janvier 2018
- 9782710811817
Une nouvelle façon d'analyser les données classiques, complexes et massives à partir des classes Applications avec Syr et R La numérisation croissante de notre société alimente des bases de données de taille grandissante (Big Data). Ces données sont souvent complexes (hétérogènes et multi-tables) et peuvent être la source de création de valeur considérable à condition qu'elles soient exploitées avec des méthodes d'analyse adéquates. Un « Data Scientist » a justement pour objectif d'extraire des connaissances de ce type de données et c'est l'objectif de cet ouvrage.
Les classes constituent un pivot central de la découverTe de connaissances. En Analyse des Données Symboliques (ADS), les classes sont décrites par des variables dites symboliques prenant en compte leur variabilité interne sous forme de distributions, d'intervalles, d'histogrammes, de diagrammes de fréquences, etc.
Le livre débute par la construction de différents types de variables symboliques à partir de classes données. Des statistiques descriptives, une méthode de discrétisation automatique adaptée aux données massives (Big Data) suivies par des indices de proximité étendus aux données symboliques y sont présentés. Vient ensuite un ensemble de méthodes présenté dans le contexte de l'ADS. Il s'agit de la méthode des nuées dynamiques (MND), de la décomposition de mélange par partition (issue de la MND) ou par partition floue (EM), de l'analyse en composantes principales, de l'algorithme Apriori, des règles d'association et des arbres de décision. Pour la prévision, le livre présente des méthodes de régressions dont celles pénalisées « ridge », « lasso » et « elastic », et des séries temporelles.
Pour la mise en application de ces premières méthodes, des exercices et des applications concrètes réalisées auprès d'administrations, d'industriels, de financiers et de scientifiques sont proposés. Leur mise en oeuvre s'appuie aussi bien sur le logiciel innovant Syr que sur le logiciel statistique R.
Cet ouvrage d'introduction à l'ADS s'adresse aux étudiants, aux ingénieurs, aux universitaires, ainsi qu'à tous ceux qui désirent comprendre cette nouvelle façon de penser en Science des Données.
-
Apprentissage statistique et données massives
Myriam Maumy-bertrand, Gilbert Saporta, Christine Thomas-agnan
- Technip
- Statistiques
- 26 Mai 2018
- 9782710811824
La numérisation du monde a pour conséquence la mise à disposition de masses de données inédites, notamment celles provenant du web.
La statistique qui s'est développée autrefois dans un contexte de rareté des données fait face à de nouveaux défis. Donner du sens aux données, développer des algorithmes prédictifs sans nécessairement avoir de modèle génératif, tels sont quelques-uns des objectifs de l'apprentissage statistique. L'apport d'autres disciplines - informatique et optimisation en particulier - est essentiel compte tenu de la nécessité de traiter rapidement les volumes de données impliqués.
On distingue l'apprentissage supervisé, où l'objectif est de prévoir une réponse à partir de prédicteurs, de l'apprentissage non supervisé, qui recherche des structures et des formes sans chercher à prévoir une réponse particulière. Depuis les réseaux de neurones jusqu'aux forêts aléatoires, en passant par les séparateurs à vaste marge (SVM), de nombreux algorithmes ont été développés, ne reposant que faiblement sur des hypothèses probabilistes. Dans ce contexte, la validation, la capacité de généralisation à de nouvelles données et le passage à l'échelle sont donc essentiels.
Cet ouvrage est le fruit de la collaboration entre spécialistes réputés. Sylvain Arlot (Université Paris Sud), Philippe Besse (INSA de Toulouse), Stéphane Canu (INSA de Rouen), Jean-Michel Poggi (Université Paris Descartes & LMO, Université Paris-Sud Orsay), Emmanuel Viennet (Université Paris 13) et Nathalie Villa-Vialaneix (INRA, Toulouse) réunis à l'occasion des 17es Journées d'étude en statistique organisées par la SFdS. Le lecteur y trouvera une synthèse des fondements et des travaux les plus récents dans le domaine de l'apprentissage statistique, avec des applications dans des domaines variés.
-
Statistique et causalité
François Bertrand, Gilbert Sporta, Christine Thomas-agnan
- Technip
- Statistiques
- 9 Octobre 2021
- 9782710811930
À l'exception notable des essais contrôlés et randomisés, la statistique a longtemps évacué le problème de la causalité considérant qu'il relevait du domaine d'application et des théories afférentes. Bien souvent les cours et les manuels de statistique se contentent de rappeler que corrélation n'est pas causalité et passent rapidement à d'autres sujets. Or, que ce soit en économie, épidémiologie, génétique, médecine, marketing, pour ne citer que quelques domaines, la recherche de modèles causaux et de variables actionnables est incontournable. Aujourd'hui la mise à disposition de données massives ou de grande dimension repose la question de la causalité de manière aigüe.
Dans le prolongement des travaux pionniers de Granger (prix Nobel d'économie en 2003), Pearl (prix Turing en 2011), Rosenbaum et Rubin, pour ne nommer qu'eux, une très large palette de modèles et méthodes pour l'analyse causale, éventuellement hors d'une expérience contrôlée, s'est peu à peu constituée depuis le début des années 1980. Citons entre autres les thèmes suivants : issues potentielles, données contrefactuelles, scores de propension, double-robustesse, diagramme de causalité, réseaux bayésiens, systèmes d'équations structurelles.
Cet ouvrage est le fruit de la collaboration entre spécialistes réputés : Léon Bottou (Facebook AI Research), Antoine Chambaz (université de Paris), Daniel Commenges (Institut national de la santé et de la recherche médicale), Isabelle Drouet (université Paris-Sorbonne), Ron Kenett (KPA Group), Vivian Viallon (International Agency for Research on Cancer) réunis à l'occasion des 18e Journées d'étude en statistique organisées par la SFdS. Le lecteur y trouvera une synthèse des fondements et des travaux les plus récents dans le domaine de la causalité statistique, avec des applications dans des domaines variés.