Bravo ! Vous êtes à le trouver, en . Résumé du jour :
Partagez et revenez jouer demain.
Voir les mots les plus proches
ℹ️ Le but du jeu est de trouver le mot secret en essayant de s’en approcher le plus possible contextuellement. Chaque mot se voit attribuer une température dont des valeurs intéressantes sont données en légende à gauche. Si votre mot se trouve dans les 1000 mots les plus proches, un indice de progression gradué de 1 à 1000 ‰ apparaîtra.
La proximité d’un mot n’est pas orthographique (comme cet autre jeu) mais sémantique ou contextuelle. Elle est évaluée non pas à l’aide d’un dictionnaire, mais d’une base de données de textes de plus d’un milliard de mots à partir de laquelle on a calculé une “distance” relative entre chaque mot. Deux mots proches dans un tel champ lexical ne sont pas nécessairement synonymes. Par exemple, il se peut qu’un adjectif et son contraire soient considérés comme proches car ils peuvent qualifier la même chose.
La langue française ayant beaucoup de redondances orthographiques du fait des verbes conjugués et des variantes féminines ou plurielles des mots, celles-ci ont été eliminées : vous cherchez donc un nom singulier ou un adjectif masculin singulier. Les accents comptent, mais les majuscules sont ignorées et les noms propres ne sont généralement pas admis.
Il vous faudra plus de 6 essais ; sans doute des dizaines. Le classement qui vous est donné en fin de partie est votre place dans la liste des joueurs qui ont trouvé le mot du jour, il est indépendant du nombre d’essais.
Il y a un nouveau mot pris au hasard chaque jour à minuit heure française, soit heure locale.
Nº | Mot | °C | 🌡 | ‰ | Progression |
---|---|---|---|---|---|
Bravo ! Vous êtes à la trouver, en . Résumé du jour :
Partagez et revenez jouer demain.
Voir la page Révéler les mots séparément
ℹ️ Le but du jeu est de découvrir la page Wikipédia en révélant les mots qui composent son introduction par essais successifs.
Les mots corrects apparaîtront en clair au fur et à mesure que vous les essaierez. Ceux qui sont suffisamment proches resteront grisés avec un niveau de gris proportionnel à la proximité du mot réel dans le champ lexical. Ce calcul de proximité est similaire à celui utilisé par cémantix. Vous pouvez voir la longueur d'un mot caché en pressant sur sa boîte noire.
Lorsque les mots composant le titre de la page Wikipédia seront dévoilés, vous aurez gagné ! Notez que les mots du titre sont corrects ou pas, ils ne sont jamais grisés. La forme masculine singulière d´un mot ou l'infinitif d´un verbe peuvent suffire à révéler ses formes féminines, plurielles ou conjuguées. Les majuscules ne sont pas nécessaires.
Il vous faudra plus de 6 essais ; sans doute des dizaines. Le classement qui vous est donné en fin de partie est votre place dans la liste des joueurs qui ont trouvé la page du jour, il est indépendant du nombre d’essais. A la fin de la partie, vous aurez le choix entre afficher la page, révéler chaque mot séparément en cliquant sur sa boîte noire, ou continuer à jouer sans spoiler.
Il y a une nouvelle page prise au hasard chaque jour à midi heure française, soit heure locale.
(/ . ̃. / ; : / ̯/ / / / ̯/ ) ' . , ' . ' , ( ) ' , , . , , , , ' .
, , , ' , . , , - . , . « » . ' , . ' - ' , , ' , .
, ' . % . ' , . . , ' , .
, , . . , ' , , , , . - , ' , .
, , . , , , , ' , , , ' , ' - , . ' , , .
-
Comment marche l’algorithme derrière cémantix ?
Imaginez que l’on vous envoie sur une ile déserte avec un livre pour toute distraction, et que ce livre est écrit dans une langue que vous ne connaissez pas. Disons l’Hawaïen (si vous connaissez cette langue, choisissez-en une autre). A votre retour, on vous demande de résumer l’histoire que vous avez lue. Vous n’en aurez aucune idée : le livre ne contient pas d’image et rien ne peut vous faire comprendre le sens des mots, il n’y a pas de pierre de Rosette sur l’ile. Tout ce que vous pourrez dire est que le livre contient des mots : des ensembles de lettres séparés par des espaces.
Pourtant, vous serez surpris de réaliser que vous pouvez répondre à quelques questions concernant la langue. Par exemple, si on vous demande quel mot irait bien avec kumulāʻau, vous direz hua. Si on vous demande par quoi on pourrait remplacer manu dans une phrase, vous pourriez dire holoholona. Ainsi, sans mėme connaître le sens de ces mots, vous pouvez les associer, et votre interlocuteur a de bonnes chances d’être satisfait de vos réponses. Vous avez simplement observé la fréquence de certaines séquences de mots ainsi que la position de ces mots dans ces séquences et pouvez donc en déduire des associations avec un certain degré de confiance.
Ce que l’algorithme fait derrière cémantix est exactement ça : il ne connaît pas le français, il n’a pas de dictionnaire ni de livre de grammaire lui permettant de comprendre un texte, une phrase ou même un mot. Il ne sait pas ce qu’est un nom, un verbe ou un adjectif (ou un adverbe), ni ce qu’est un synonyme ou un antonyme, une racine grecque ou latine. Tout ce qu’on lui fournit est un corpus de textes assez grand pour que statistiquement, les associations de mots qu’il forme aient une bonne chance d’être correctes. Statistiquement, il est toujours possible qu’il donne des résultats qui semblent illogiques pour un humain. Ce qui est logique, c’est qu’il a tiré son information de textes existants, et il y a toujours une raison pour laquelle l’association a été faite, même si elle ne semble pas évidente au premier coup d’oeil. -
Comment se font les associations ?
Voici un exemple en deux phrases :
- Alice va promener son petit chien.
- Bob va nourrir son gros chien.
Si ces phrases se répètent un certain nombre de fois dans un texte, on peut naturellement conclure que “petit et chien”, “gros et chien” sont associés car physiquement proches dans la phrase, mais aussi “petit et gros” car bien qu’ils ne soient pas proches physiquement (ils n’apparaissent pas dans la même phrase), ils sont interchangeables grâce a la proximité du mot chien, ce qui doit les associer bien qu’ils veuillent dire le contraire. Par contre, on ne verra jamais la phrase “Charlotte lance la balle à son chien canin”, ce qui fait que chien et canin ne sont pas proches, tout du moins rarement physiquement. Seule une interchangeabilité pourrait le faire (par exemple, David lance la balle à son compagnon canin). Selon le même principe, “promener et nourrir” doivent être associés, ce qui peut paraître surprenant, de même qu’“Alice et Bob”, mais après tout, peut-être le sont-ils 😊. Il faut se rappeler que tout est une question de statistiques, la fréquence de ces associations dans le texte leur donne un ordre de préférence.
-
Comment sont calculées les températures ?
C’est en 2013 qu’une équipe d’ingénieurs de chez Google a eu l’idée de représenter les mots d’un texte dans un espace multi-dimensionnel (on parle ici de centaines de dimensions) en suivant les règles d’association décrites plus haut et en considérant leur position relative par rapport aux autres mots. Chaque mot se voit attribuer un vecteur dans chaque dimension de cet espace, ce qui constitue ainsi un système de coordonnées. Ce modèle est connu sous le nom de word2vec. Une fois que cela est fait, il est facile de calculer la “distance” entre deux mots, quels qu’ils soient. Cette distance est la température affichée dans cémantix.
-
Comment s’opère le choix des mots ?
La liste des mots proches du mot secret est entièrement déterminée par l’algorithme, sans aucune intervention humaine. En revanche, le choix du modèle de word2vec a une influence car plusieurs paramètres entrent en jeu : le choix du corpus (la base de textes), l’algorithme d’association des mots, le nombre de dimensions, la taille du voisinage d’un mot dans un texte, la lemmatisation du texte (le procédé visant à ramener les variations d’un mot : féminin, pluriel, ou conjugaisons d’un verbe, à son dénominateur commun comme le ferait un dictionnaire). Des modèles différents peuvent donner des résultats étonnamment différents, même s’ils utilisent le même corpus. D’expérience, il n’y a pas de modèle “parfait”, et les résultats peuvent toujours réserver quelques surprises aux joueurs.
Le choix du mot secret est aléatoire, à une exception près. Les mots secrets sont tous des mots relativement courants de la langue française, tout le monde devrait les connaître. Si un mot se rapporte à l’actualité, s’il est similaire à un autre mot du jour, s’il peut paraître offensif ou orienté, s’il semble trop facile ou trop difficile à trouver, c’est une coïncidence. -
Est-ce que vous nous voulez vraiment du mal ?
Si c’était le cas, cela ferait de moi un masochiste car je joue aussi. Quelquefois je réussis, quelquefois j’échoue lamentablement. J’ai accès à la solution mais je ne la regarde pas. Si je ne trouve pas, j’y reviens quelques heures plus tard, ou j’attends de voir la solution le lendemain. Alors par pitié si vous m’envoyez un message, ne commencez pas par “aujourd’hui le mot était X et je ne vois pas le rapport avec Y” ou vous gâcheriez ma journée. 🙂