Etude
de cas

Jobtransport

Optimisation sémantique d'un moteur de recherche SolR

JobTransport est un site d'offres d'emplois (job board) spécialisé sur le domaine du transport et de la logistique (chauffeurs, livreurs, répartiteurs, etc.). Positionné sur un marché de niche, et face à des sites majoritairement généralistes, voir à des agrégateurs automatiques d'offres d'emplois, JobTransport souhaitait se démarquer et se positionner comme un site incontournable sur ce marché vertical en montrant que son moteur de recherche est le plus pertinent et plus utile pour ce qui concerne les métiers du transport et de la logistique.

L'objectif ultime et idéal de la démarche (rêvons un peu) est d'arriver à apparier de façon automatique les CVs des chercheurs d'emploi et les offres de postes. Cela permet d'offrir des services à forte valeur ajoutée : proposer les postes les plus pertinents à un chercheur d'emploi, ou proposer les profils les plus pertinents à un recruteur. Cela nécessite d'avoir structuré les informations des deux côtés pour avoir les données les plus fines possibles pour caractériser un CV (dernier poste occupé, compétences, poste recherché, etc.) et une offre (profil recherché, compétences demandées, zone géographique, etc.). La route est longue pour arriver à cet objectif avec un niveau de qualité et d'automatisation suffisant, et nous nous sommes concentré sur une première phase : la structuration sémantique des offres d'emploi pour améliorer les filtres de recherche et la pertinence des résultats. Nous nous sommes par ailleurs restreints aux offres d'emploi concernant les chauffeurs (de loin les plus nombreuses sur le site).

Cette structuration des offres s'est faite en plusieurs étapes

La constitution de thesaurus sur le domaine du transport et de la logistique

Nous avons construit des terminologies métier autour de plusieurs problématiques, notamment les métiers de la logistique, les qualifications spécifiques (ADR, etc.), les permis, les véhicules, les types de cargaison (hydrocarbures, etc.), et quelques autres. La constitution de ces vocabulaires s'est faite manuellement en traitant les intitulés de toutes les offres déposées sur le site depuis sa création, de façon à être sûr que tous les mots utilisés dans les intitulés (y compris les abréviations ou les fautes d'orthographes les plus courantes) trouvent une place dans la terminologie.  La structure s'est faite en SKOS (concepts hiérarchisés, avec un terme préférentiel, des synonymes/acronymes), dans des tableaux Excel, puis en utilisant le plugin SKOS de Protégé (si GINCO avait été disponible à l'époque, on aurait pu l'utiliser). Ces thesaurus sont à la frontière avec les ontologies, puisque nous avons ajouté certaines relations du type "tel type de cargaison nécessite telle certification" ou "tel véhicule nécessite tel permis".

L'annotation automatique des offres à l'aide des terminologies

Nous avons mis en place une chaîne logicielle pour annoter automatiquement les offres d'emploi et y détecter les termes des vocabulaires constitués. Gate a été utilisé pour cela, en étant alimenté par les terminologies transformées en gazetteers. Pour éviter certains faux positifs, Gate a également été paramétré avec quelques règles de grammaire visant à exclure certains cas particuliers. Par ailleurs, pour diminuer encore les faux positifs, toutes les terminologies ne sont pas recherchées dans toutes les parties du texte (typiquement, le descriptif de la société qui a publié l'offre apporte peu d'information, alors que les termes trouvés dans le titre seront pondérés plus fortement).

L'enrichissement de l'index de recherche avec les mot-clés trouvés

Les annotations sont ensuite stockées dans une base RDF (Sesame), avant d'être injectées dans l'index de recherche SolR. Une fois l'index enrichi, on peut améliorer le système de recherche grâce à ces données plus riches et mieux structurées.

On peut ajouter de nouvelles facettes de recherche spécifiques au métier de chauffeur : les utilisateurs peuvent filtrer sur les types de cargaison transportées, les permis nécessaires, les qualifications ou les véhicules demandés dans l'offre. Ces facettes viennent s'ajouter aux facettes déjà présentes sur le moteur (métier, contrat, niveau d'expérience, lieu géographique, etc.).

 

jobtransfort-facettes-entourees

On peut proposer une extension de la recherche plein-texte en tenant compte des synonymes, des abréviations ou des termes spécifiques des terminologies métier. Par exemple une recherche sur "grue auxiliaire" ramènera également les offres contenant les synonymes "bras grue", "bras de levage", "grue auxiliaire", "grue avec télécommande", "bras articulé", "bras hydraulique", et quelques abréviations "bdg", "grue aux", "b. de grue", etc.

 

jobtransport-capture-grue-mobile

Cela permet également de proposer les termes de la terminologie dans les listes de suggestion des champs de recherche, pour bien valoriser la compétence du site sur son domaine de prédilection.

 

jobtransport-capture-autocomplete

On relève d'autres terminologies autour de la problématique des offres d'emploi et des CVs : le thesaurus européen DISCO sur les aptitudes et les compétences, ou les codes ROME Pôle Emploi, mais qui ne sont pas publiés sous licence réutilisable.

< Revenir à la liste des références