28
L'intelligence augmentée Aider les hommes à prendre des décisions plus éclairées Livre blanc d'entreprise

[Livre Blanc] L'intelligence augmentée

Embed Size (px)

Citation preview

Page 1: [Livre Blanc] L'intelligence augmentée

L'intelligence augmentéeAider les hommes à prendre des décisions plus éclairées

Livre blanc d'entreprise

Page 2: [Livre Blanc] L'intelligence augmentée

Table des matières

3 L'intelligence artificielle pour faciliter la prise de décision

4 Le théorème de Bayes

6 La théorie de l'information

7 Analyse structurée

7 Analyse des graphes8 Analyse prédictive

9 Reconnaissance de formes

9 Reconnaissance des formes textuelles

9 Recherche de base10 Recherche conceptuelle11 Agents conceptuels11 Etablissement de liens hypertextes11 Profils d'utilisateur12 Catégories et clusters12 La correspondance polyvalente, l'atout de la stratégie d'IDOL

13 Classification

13 Catégorisation14 Clustering15 Eduction16 Analyse des sentiments16 Classification des contenus multimédias

17 Reconnaissance des formes audio

17 Conversion de la parole en texte18 Personnalisation linguistique et adaptation acoustique18 Analyse audio19 Reconnaissance sonore19 Recherche d'éléments phonétiques

20 Reconnaissance des formes d'image

21 Reconnaissance optique de caractères21 Reconnaissance des codes-barres21 Traitement des images humaines22 Reconnaissance faciale23 Reconnaissance d'objets24 Classification des images

25 Vision artificielle géométrique

25 Cartographie et localisation simultanées 27 Reconstruction 3D27 Détection des changements

Livre blanc d'entreprise

Page 3: [Livre Blanc] L'intelligence augmentée

L'intelligence artificielle pour faciliter la prise de décision

Lorsque nous avons compris que les ordinateurs pouvaient réaliser des calculs qui prendraient des semaines aux humains, ou que nous serions incapables d'effectuer, nous avons réalisé que nous pourrions faire faire aux machines tout ce que nous pouvons faire. Ce n'est pas une coïncidence si l'heure de gloire de la science-fiction a débuté en même temps que les grandes avancées informatiques et spatiales après la seconde guerre mondiale. La majorité des visions futuristes intégraient des technologies non humaines dont les capacités dépassaient grandement celles de leurs créateurs mortels.

L'intelligence artificielle est déjà partout autour de nous. Les capteurs qui nous aident à déterminer le moment optimal pour changer nos feux de croisement, les machines à laver qui s'adaptent automatiquement à la quantité de linge et la jouabilité de nos jeux favoris sur nos smartphones ne sont que quelques exemples parmi tant d'autres. Même le système qui empêche un micro-ondes de démarrer parce que la porte est ouverte est un exemple d'intelligence artificielle en action. Les ordinateurs sont excellents pour prendre des décisions lorsqu'ils disposent de toutes les informations pertinentes, et ne laissent rien au hasard. Ces système sont appelés systèmes déterministes entièrement observables. Pour cette raison, les ordinateurs sont bien meilleurs que les humains aux échecs, mais perdent au poker.

Mais pendant que nos machines entretiennent parfaitement nos jardins et nous disent la date exacte à laquelle réserver nos vacances pour bénéficier d'une météo parfaite, la plupart des observateurs du monde de l'intelligence artificielle ne remarquent pas un aspect essentiel : lorsque l'on s'intéresse aux éléments les plus humains de notre existence, c'est-à-dire nos interactions, nos décisions, et nos intérêts, les machines ont bien moins de choses à offrir. Nous ne voulons pas que la machine choisisse quelle fleur planter, nous voulons qu'elle exécute nos souhaits rapidement et efficacement. Nous souhaitons encore moins qu'un ordinateur choisisse notre destination de vacances, même si nous lui demandons de l'aide pour prendre une décision intelligente et en toute connaissance de cause.

Dès sa conception, HPE IDOL a proposé un nombre de techniques innovantes d'analyse des données qui permettent d'automatiser et d'améliorer le traitement des informations humaines de tous types. Notre but n'est pas que la solution prenne la décision à la place des hommes, mais qu'elle leur fournisse les informations nécessaires au meilleur plan d'action. Cette approche s'appelle l'intelligence augmentée.

Dans le domaine de l'intelligence augmentée, IDOL utilise un large éventail de théories et de techniques pour traiter les informations humaines et en extraire du sens. Il est indispensable de présenter ici les principales théories et leur utilisation qui permettent d'optimiser les solutions de certaines des plus grandes entreprises du monde.

Les hommes cherchent à rendre les ordinateurs intelligents depuis qu'ils les ont inventés. La notion d'intelligence artificielle renvoie à un avenir contrôlé par les robots et dans lequel les humains seront devenus obsolètes. Au contraire, la plate-forme HPE IDOL, solution de pointe dans le domaine de la recherche et de l'analyse des données d'entreprise, s'appuie sur des techniques innovantes d'intelligence artificielle pour automatiser et améliorer le traitement des informations humaines. Elle aide les hommes à prendre de meilleures décisions, au lieu de leur enlever ce pouvoir. Cette approche s'appelle l'intelligence augmentée. Ce document décrit les principales techniques d'analyse de ces informations.

Livre blanc d'entreprise Page 3

Page 4: [Livre Blanc] L'intelligence augmentée

Le théorème de Bayes

Les bases théoriques de l'approche d'IDOL dans le domaine du traitement des informations humaines datent de Thomas Bayes, pasteur anglais du XVIIIe siècle, dont les travaux sur les probabilités mathématiques ont été publiés de manière posthume (« Philosophical Transactions of the Royal Society of London », 1763). Les théories de Bayes étaient centrées sur le calcul des relations de probabilité entre plusieurs variables et sur la détermination de l'impact d'une variable sur l'autre. Son théorème repose sur une simple équation reliant les probabilités conditionnelles de plusieurs variables quelconques.

La puissance du théorème de Bayes réside dans son application, qui permet de gérer des ensembles de données complexes. Il fournit un cadre mathématique décrivant la manière dont le modèle d'un système doit être mis à jour en fonction des observations qui ont été faites de ce système. Cette seule interprétation supprime le recours à des modèles a priori complexes, qui prétendent décrire la manière dont un système fonctionne mais créent plutôt automatiquement un modèle personnalisé qui s'adapte aux données en question.

Prenons par exemple un corpus de textes utilisés pour créer un système de récupération de documents. Les modèles linguistiques complexes qui prétendent comprendre le français fonctionneront correctement sur la plupart des données, mais échoueront à analyser le jargon spécifique à un secteur, les néologismes ou les produits et usages spécifiques à un client. Comparons maintenant avec le système de Bayes. Un modèle linguistique extrêmement basique est d'abord utilisé, puis mis à jour à l'aide du théorème de Bayes pour former un modèle à la fois spécifique au secteur et à ce corpus de documents. Non seulement cette approche ne dépend pas de la langue, mais encore elle se met à jour automatiquement dès que de nouvelles données contenant de nouveaux mots sont ajoutées ou que des mots existants sont utilisés d'une autre manière, afin de garantir l'actualisation permanente du modèle.

P(A|B) = P(A) P(B|A)

P(B)

Livre blanc d'entreprise Page 4

Page 5: [Livre Blanc] L'intelligence augmentée

De même, dans le domaine de la sécurité et de la surveillance, le théorème de Bayes offre une méthode d'interprétation polyvalente pour analyser la gamme étendue d'activités capturées par un ensemble de caméras vidéo. Les caméras de sécurité se sont tellement multipliées que les hommes ne sont plus capables de détecter les problèmes sur tous les écrans. Les logiciels de surveillance intégrant des modèles prédéfinis permettant d'identifier les comportements inhabituels sont en fait uniquement capables de détecter une activité qu'ils sont entraînés à reconnaître. Les modules d'IDOL, au contraire, ne sont pas encombrés de modèles prédéfinis et peuvent utiliser les flux vidéo pour déterminer les comportements normaux et ainsi détecter rapidement les comportements qui sont hors cadre et déclencher l'envoi d'une alerte au personnel de sécurité.

L'une des raisons pour lesquelles le théorème de Bayes fonctionne si bien sur le traitement des données humaines est que les hommes sont des créatures bayésiennes. Nous sommes nés sans modèles préconçus et sans savoir comment le monde fonctionne. Chacune de nos observations met à jour notre modèle du monde sur ce qui est normal ou non. Par conséquent, il est facile pour une personne de regarder un flux vidéo et de déterminer un comportement normal dans une zone spécifique, et un comportement inhabituel devient tout de suite évident.

Un argument statistique traditionnellement cité est celui de la pièce lancée 100 fois et qui tombe toujours du côté face, mais qui a toujours la possibilité de tomber sur le côté pile au prochain lancer. L'approche de Bayes consiste à dire que 100 lancers tombant du côté face sont la preuve que la pièce est truquée ou qu'il y a deux côtés face. Une fois encore, l'approche humaine est intrinsèquement celle décrite par Bayes. Seule une personne courageuse parierait sur un lancer pile après avoir vu 100 lancers face consécutifs.

Dans le domaine de la récupération des données, il est souvent difficile de juger de la pertinence d'un document par rapport à une requête ou à un profil d'agent donné. Le théorème de Bayes permet d'associer ce jugement aux détails dont nous disposons déjà, par exemple le modèle d'un agent. De manière plus formelle, la distribution a posteriori en découlant et applicable à la pertinence du jugement peut être donnée en tant que fonction des modèles a priori connus et de leur probabilité.

Nous pouvons utiliser les mêmes techniques d'analyse des données pour fournir des modèles adaptatifs du comportement d'un utilisateur. Par exemple, nous pouvons utiliser les documents écrits, lus ou considérés comme pertinents par un utilisateur pour juger de la pertinence de futurs documents. La fonction APCM (modélisation adaptative du concept de probabilité) d'IDOL permet à ces informations d'être propagées en retour. Les agents peuvent être optimisés via un entraînement continu.

L'utilisation du théorème de Bayes par la solution IDOL va plus loin que le simple jugement de la pertinence d'un document par rapport à une requête. La fonction APCM analyse la corrélation entre les caractéristiques trouvées dans les documents jugés pertinents pour le profil d'agent afin de trouver de nouveaux concepts et documents. Elle identifie ensuite les concepts significatifs au sein des documents, afin que les nouveaux documents soient correctement classés.

Même si personne ne connaît l'objectif premier de Bayes, son théorème est devenu un pilier central de la modélisation moderne des probabilités statistiques. En appliquant la puissance des calculs informatiques actuels aux concepts découverts par Bayes, nous sommes désormais en mesure de déterminer rapidement et efficacement les relations entre des ensembles de variables, tout en permettant aux logiciels de manipuler les concepts.

Livre blanc d'entreprise Page 5

Page 6: [Livre Blanc] L'intelligence augmentée

La théorie de l'information

La théorie de l'information est la base mathématique de tous les systèmes de communication numériques. L'innovation de Claude Shannon, décrite dans son ouvrage « Mathematical Theory of Communication » (1949), a été de découvrir que les informations pouvaient être traitées en tant que valeur quantifiable dans le domaine de la communication. Cette théorie est incroyablement efficace pour le traitement des flux de données complexes, car elle permet de déterminer automatiquement les caractéristiques intéressantes et d'extraire les informations les plus utiles.

Prenons l'exemple de base, où les unités de communication (par exemple les mots ou les phrases) sont indépendantes les unes des autres. Si p(x) est la probabilité de la xe unité de communication, alors la quantité moyenne d'informations transmise par une unité, connue sous le nom d'entropie de Shannon, est donnée par :

L'entropie est maximale lorsque les possibilités sont équiprobables. Dans ce cas, le texte obtenu serait aléatoire. Dans le cas contraire, si l'information véhiculée par le texte est inférieure à ce maximum, cela signifie qu'il existe une certaine redondance. Ce résultat est ensuite étendu par d'autres arguments mathématiques plus sophistiqués afin de décrire des interrelations plus complexes entre les variables.

Les langues naturelles présentent un degré élevé de redondance. Vous pouvez comprendre une conversation dans un environnement bruyant, même si vous ne pouvez pas entendre certains mots. Vous pouvez comprendre l'essence d'un article de journal en survolant le texte. La théorie de l'information offre un cadre pour l'extraction des concepts à partir de la redondance.

L'approche de la solution IDOL quant à la modélisation des concepts s'appuie sur la théorie de Shannon. Selon cette dernière, moins une unité de communication est fréquente, plus elle véhicule d'informations. Par conséquent, les concepts et les idées qui sont inhabituels ou distinctifs dans le contexte d'une communication ont tendance à être plus significatifs. IDOL applique cette théorie pour déterminer les concepts les plus importants (ou informatifs) au sein d'un document.

H = – p(x) log p(x)∑

Livre blanc d'entreprise Page 6

Page 7: [Livre Blanc] L'intelligence augmentée

Analyse structurée

Analyse des graphesDes bases de données de graphes offrent une nouvelle manière de modéliser le monde qui nous entoure. Elles comprennent des nœuds et des bords. Un nœud est une entité, par exemple une personne, un endroit, ou même un concept, et un bord est une connexion ou une relation entre deux nœuds. Par exemple, le graphe d'un réseau social peut représenter les personnes sous forme de nœuds et les communications entre elles sous forme de bords.

Les graphes offrent une nouvelle approche de l'analyse des données. En mettant en avant les relations entre les entités, nous pouvons répondre à des questions telles que :

• Notre réseau est-il dense ou non ?

• Quelle est la personne la plus connectée du réseau ?

• Quels amis deux personnes ont-elles en commun ?

Les graphes nous aident à identifier des formes complexes que nous aurions manquées sinon au sein de données. Par exemple, nous pouvons utiliser des graphes pour concevoir des systèmes de recommandations qui lient les clients et les produits en nous basant sur les similarités trouvées dans l'historique d'achat des clients. Les graphes peuvent aussi nous permettre d'identifier les groupes d'amis en détectant les cliques d'utilisateurs au sein d'un réseau social, reconnaissables par un plus gros volume de communications entre eux.

Nous pouvons également utiliser des graphes pour détecter les relations cachées en recherchant les chemins entre les nœuds qui ne sont pas directement connectés. Les algorithmes de chemin le plus court permettent de trouver la meilleure route entre deux nœuds selon les critères choisis. Dans le cas le plus simple, ce peut être le nombre de bords utilisés pour aller d'un point à un autre. Le chemin le plus court sera alors celui où l'on compte le moins de bords.

Livre blanc d'entreprise Page 7

Page 8: [Livre Blanc] L'intelligence augmentée

Il est également possible d'attribuer un poids ou un coût à chaque bord. Le coût total d'un chemin est égal à la somme des coûts de tous les bords qu'il contient. Dans ce cas, un chemin comprenant de nombreux bords peu onéreux est considéré comme étant plus court qu'un chemin contenant moins de bords plus onéreux. Prenons le graphe d'un réseau de transport où les emplacements sont des nœuds et les différents moyens de transport entre ces emplacements des bords (train, bus, ou itinéraires piétons), avec le temps que prend chaque moyen de transport attribué en tant que coût du bord. Si votre priorité est d'aller de A à B avec le moins de connexions possibles, vous devez alors calculer le chemin le plus court en utilisant le nombre de bords. Cependant, si vous voulez voyager le plus rapidement possible, vous devez utiliser les coûts pour calculer votre itinéraire.

Les serveurs de graphes IDOL proposent une fonctionnalité de graphes qui vient compléter les fonctions d'analyse de texte existantes d'IDOL et permet aux utilisateurs d'explorer leurs données d'une nouvelle manière. Une fois que les utilisateurs ont choisi les entités et les relations qu'ils souhaitent modéliser sous la forme de nœuds et de bords, IDOL peut créer automatiquement un graphe dans le cadre de son processus d'indexation. Le serveur de graphes permet de configurer plusieurs types de bords et fournit un algorithme intégré pour calculer le poids des bords. La représentation des données est ainsi beaucoup plus flexible. De plus, notre technologie existante de mise en correspondance de formes peut être utilisée pour trouver des mesures plus complexes entre les nœuds de graphes que ceux disponibles via des graphes autonomes.

Analyse prédictiveLes stratèges, directeurs commerciaux et responsables produit rêvent de prédire les résultats, pour mieux planifier et résoudre proactivement les problèmes, saisir les opportunités, ou pour faire des choix plus sûrs. Des prévisions plus sûres peuvent permettre de devancer la concurrence, d'offrir une meilleure expérience aux clients et de réduire les coûts de l'entreprise.

Le principe de base est le suivant : il existe au sein d'une organisation des modèles qui se reflètent dans les données. Ces modèles indiquent et influencent généralement l'orientation des projets, actions, tâches ou opportunités. Nous pouvons souvent identifier ces modèles via des techniques d'apprentissage automatique.

Néanmoins, l'apprentissage automatique nécessite généralement l'intervention d'un spécialiste des données pour concevoir et optimiser un modèle de prévision efficace. Les spécialistes des données expérimentés sont rares, d'autant plus que les techniques utilisées sont nombreuses. De plus, le coût d'une équipe de spécialistes des données est souvent extrêmement élevé.

Les fonctionnalités prédictives d'IDOL permettent aux équipes non spécialisées de créer et d'optimiser des modèles d'analyse à l'aide d'API. Ensuite, l'équipe n'a plus qu'à télécharger des ensembles de données et saisir des questions que le système résoudra lui-même.

La plate-forme utilise un large éventail d'algorithmes : forêts aléatoires, régression logistique, machines à vecteurs de support et modèle bayésien naïf pour analyser et créer un modèle d'apprentissage automatique et réaliser des extrapolations. Plutôt que de se limiter à certaines techniques, la plate-forme s'appuie sur toutes les techniques adaptées afin de déterminer la meilleure, et utilise également une fonction d'optimisation de l'apprentissage automatique, qui choisit automatiquement les meilleurs paramètres de chaque algorithme sans aucune intervention de l'utilisateur. Une fois les modèles intégrés, IDOL choisit automatiquement le modèle le plus exact, tout en évitant le surapprentissage.

Livre blanc d'entreprise Page 8

Page 9: [Livre Blanc] L'intelligence augmentée

Reconnaissance de formes

La reconnaissance de formes, comme la théorie très proche de la correspondance des formes, utilise plusieurs techniques pour déterminer des structures (ou formes) au sein d'ensembles de données apparemment bruités. Cette tâche apparemment simple a donné naissance à un grand nombre de technologies d'analyse des données, qui sont capables d'extraire des formes particulières et ont des applications évidentes dans de nombreux domaines. Par exemple, la reconnaissance automatique des plaques d'immatriculation est une méthode de reconnaissance de formes utilisée pour localiser une ou plusieurs plaques d'immatriculation sur un flux vidéo ou image.

IDOL utilise des techniques de reconnaissance des formes sur tous types de données. En matière de traitement de la parole, la reconnaissance des formes est utilisée dans les techniques d'identification du locuteur, de reconnaissance musicale, ou de création de modèles audio plus larges, par exemple pour détecter des coups de feu ou du verre brisé. Dans le domaine du traitement de l'image et vidéo, le même cadre théorique est appliqué à la détection des scènes, à la reconnaissance faciale, à la correspondance des similarités au sein d'une image ou à la détection des objets, parmi tant d'autres. Pour l'analyse de texte, la reconnaissance des formes permet de "synthétiser" un ou plusieurs documents, pour ensuite établir une correspondance entre les similarités conceptuelles, regrouper les documents, ou pour d'autres applications. Nous étudierons chacun de ces domaines dans les sections suivantes.

Reconnaissance des formes textuelles

Du point de vue de la reconnaissance des formes, les documents textuels non structurés comprennent généralement des flux bruités de données contenant peu d'informations et sont particulièrement adaptés aux théories de reconnaissance des formes. Suite à l'indexation dans IDOL, plusieurs méthodes permettent de récupérer efficacement les informations des documents.

Recherche de baseAu moment de l'indexation, les champs d'index sont utilisés pour extraire les termes et concepts pertinents qui seront stockés dans un index inversé. Un grand nombre de propriétés sont stockées pour chaque occurrence d'un terme, notamment le document et le champ de l'occurrence, sa position dans le champ, sa capitalisation, sa racine et toute pondération explicite appliquée à ce terme, et même la phrase et le paragraphe au sein desquels le terme s'affiche. Toutes ces informations sont stockées pour faciliter la récupération lors de la requête.

Livre blanc d'entreprise Page 9

Page 10: [Livre Blanc] L'intelligence augmentée

Au moment de la requête, IDOL charge ces informations pour tous les termes figurant dans la requête, et détermine les documents correspondants à la recherche, que cette dernière soit booléenne, conceptuelle ou par mot-clé. IDOL enregistre les informations et affiche une liste de tous les documents au sein desquels le terme a été trouvé, avec les informations sur les occurrences du terme dans chaque document.

Ces informations supplémentaires sont utilisées pour calculer la pertinence. Les mesures de base, telles que les occurrences dans les titres, les champs plus pondérés ou le nombre d'occurrences d'un terme, sont utilisées pour attribuer plus de pertinence à certains documents. Tous les opérateurs booléens ou indicateurs syntagmatiques ont également un impact sur les correspondances et la pondération. Ainsi, une action plus complexe comme l'analyse de la proximité des termes de la requête permet, par exemple pour une requête sur Hilary Clinton, de faire correspondre un document sur la politicienne au lieu d'un document traitant de Hilary Benn et Bill Clinton.

De plus, les informations du moteur optimisent l'exactitude du processus de correspondance. Les informations tirées des occurrences des termes et expressions sur l'ensemble du corpus permettent de concevoir un modèle linguistique spécifique aux données qui est utilisé pour optimiser la pertinence. Par exemple, une requête sur les prévisions météorologiques devrait donner beaucoup plus d'importance aux documents traitant de la météo plutôt qu'à ceux mentionnant le mot prévisions. Ce principe peut être étendu pour permettre une recherche conceptuelle et linguistique complètement naturelle.

Recherche conceptuelleL'approche probabiliste du processus d'indexation et de récupération d'IDOL permet l'exécution naturelle d'opérations complexes. La récupération de base est optimisée et permet d'obtenir des connexions plus subtiles et des résultats plus pertinents qu'aucun moteur de recherche par mot-clé.

Par exemple, imaginez que vous soyez intéressé par l'impact de la pollution sur les pingouins. L'approche traditionnelle consiste à sélectionner un moteur de recherche par mot-clé et de saisir le mot pingouin. Vous obtiendrez des contenus utiles, mais aussi une quantité d'informations non pertinentes sur le biscuit au chocolat des années 80 ou sur Batman et Robin.

Dans notre cas, nous recherchons des documents sur les pingouins, c'est-à-dire sur les oiseaux. Un document contenant le mot « mer » peut parler des pingouins, mais comme ce mot apparaît dans de nombreux contextes, il est fort probable que le contenu traite d'un autre sujet. Cependant, si le document contient les mots noir, blanc, ne vole pas, plume, nappe, et pétrole, alors la probabilité que le document ne parle pas des pingouins et de la pollution devient très faible. De plus, ici le mot pingouin n'a même pas été utilisé, au profit d'un nombre supérieur d'informations de moindre importance, chaque information pouvant être retirée sans affecter de manière significative la probabilité. La stratégie de la solution Autonomy est de comprendre le contexte en fonction de concepts et de mots-clés forts ou d'un nombre supérieur d'informations de moindre importance.

Pour cela, IDOL a besoin d'un cadre pour encapsuler les concepts tels que les pingouins, les oiseaux ou les prévisions météorologiques. Des agents conceptuels sont alors utilisés.

Livre blanc d'entreprise Page 10

Page 11: [Livre Blanc] L'intelligence augmentée

Agents conceptuelsPour des raisons de clarté et d'extensibilité, les systèmes qui doivent analyser des flux de texte non structurés doivent pouvoir réduire ces flux en vue de leur traitement. Au sein d'IDOL, cette fonction est assurée par les agents conceptuels (ou tout simplement agents).

Les agents encapsulent un concept ou un sujet et sont générés à partir d'une ou plusieurs parties de texte non structuré ou d'un ou plusieurs documents. En interne, ils sont stockés en tant qu'ensemble de termes, avec leur pondération associée. Les termes et leur pondération ont été choisis de manière à mieux représenter le concept pour une future utilisation. Ce choix repose sur plusieurs informations, dont le nombre d'occurrences et la proximité de certains ensembles de termes, mais aussi sur le modèle linguistique du moteur qu'IDOL a conçu pour déterminer quel terme contient le plus d'informations ou d'entropie. Ces statistiques, récupérées grâce à l'analyse de l'ensemble du corpus de documents, qui est constamment mis à jour à mesure que de nouveaux documents sont indexés, permettent la sélection intelligente de termes et de concepts au sein d'un document. L'analyse mathématique des textes au sein du corpus considère les termes comme des symboles de sens abstraits avec une compréhension obtenue en contexte, sans grammaires rigides. Généralement, entre 20 et 40 termes sont utilisés pour un agent, même si certains concepts peuvent être résumés à l'aide d'un nombre inférieur de termes, alors que d'autres en requièrent davantage.

Un agent est généralement enregistré en tant que recherche, afin que les critères puissent être réutilisés pour trouver de nouveaux documents. Dans ce cas, un texte de requête en langue naturelle est présenté à l'agent, et des documents sont ensuite choisis en fonction des résultats pour décrire l'étendue exacte et précise de l'agent.

Les agents peuvent être aussi utilisés pour l'établissement de liens hypertextes, les profils d'utilisateurs, les catégories et les clusters. Les sections suivantes décrivent plus en détails ces utilisations.

Etablissement de liens hypertextesL'établissement de liens hypertextes s'appuie sur un document ou un ensemble de documents pour trouver d'autres documents aux concepts similaires. Cette fonction est spécifiquement utilisée pour trouver davantage de documents similaires, notamment des informations pertinentes par rapport à un courrier ou à une présentation que vous écrivez.

Pour y parvenir, IDOL utilise ces techniques d'appariement des formes pour créer un agent qui représente le ou les documents, puis fait correspondre cet agent au corpus de documents pour trouver les ressemblances conceptuelles.

Profils d'utilisateurLa sécurité est capitale pour les utilisateurs d'entreprise de la solution IDOL. Le système d'indexation et de flux de travail d'IDOL répondent à cette attente. Ainsi, la plupart des interactions entre un utilisateur et IDOL impliquent la fourniture des droits d'accès de l'individu. Si nécessaire, IDOL peut ensuite utiliser ces informations pour enregistrer l'activité, les préférences et les formes d'utilisation de chaque individu de manière sécurisée.

La création de profils d'utilisateur est un exemple typique d'utilisation. Les profils sont créés automatiquement pour les utilisateurs, chaque fois qu'ils interagissent avec IDOL. Ce sont des agents conçus pour regrouper les intérêts des utilisateurs et sont générés à partir des documents qu'ils créent, modifient ou affichent. Par exemple, un utilisateur qui s'intéresse au secteur des télécommunications en Amérique latine aura des profils qui reflèteront cet intérêt. Ainsi, les dernières nouvelles sur les télécoms brésiliennes seront envoyées à l'utilisateur sans qu'il n'ait à appuyer sur une touche. Le système est capable d'interpréter correctement des termes de recherche ambigus en fonction de ces informations (hiérarchie basée sur les intentions). De plus, les profils peuvent être utilisés par la communauté pour automatiquement créer des liens vers les utilisateurs ayant des intérêts similaires (appelé réseau d'expertise).

Livre blanc d'entreprise Page 11

Page 12: [Livre Blanc] L'intelligence augmentée

Tableau 1 : Combinaisons sources / cibles

CIBLECRITÈRES DOCUMENT PERSONNE AGENT

SOURCE

CRITÈRES Extension de recherche

Recherche de document

Recherche d'expertise

Recherche d'agent

DOCUMENT Catégorisation booléenne

Etablissement de liens hypertextes

Profilage Catégorisation conceptuelle

PERSONNE Catégorisation de personnes

Recherche de profil Communauté Catégorisation de personnes

AGENT Catégorisation d'agent

Catégorisation pendant la requête

Recherche d'expertise

Suggestion d'agent

De plus, les utilisateurs peuvent créer manuellement leurs propres agents conceptuels pour trouver des documents sur des sujets spécifiques, à la demande, ou pour obtenir de nouveaux documents sur un sujet qui leur a été envoyé automatiquement. Ils peuvent ensuite partager ces agents avec leur communauté d'entreprise.

Catégories et clustersLa capacité d'IDOL à catégoriser le contenu non structuré est une application puissante de l'apprentissage automatique. Il existe deux techniques principales. Pour la catégorisation, des exemples de documents dans chaque catégorie sont fournis à IDOL, à partir d'un ensemble prédéfini. Les bibliothèques de reconnaissance d'IDOL forment les agents de catégorie, qui peuvent être ensuite utilisés pour catégoriser les documents non triés. Pour le clustering, IDOL crée des agents de cluster à partir d'un corpus inconnu en identifiant les principaux sujets des données, qui à leur tour peuvent être utilisés pour suivre ces clusters dans le temps ou catégoriser d'autres documents. Nous discuterons de ces deux techniques plus en détail dans la section Classification.

La correspondance polyvalente, l'atout de la stratégie d'IDOLLa puissance des agents conceptuels d’IDOL réside dans leur capacité à interagir avec les documents, les requêtes et entre eux. Par exemple, lorsqu'un document est utilisé en tant que requête dans IDOL, la solution s'appuie sur l'établissement de liens hypertexte. De même, pour classer les individus en catégories prédéfinies (catégorisation de personnes), une personne (représentée par un profil utilisateur) est utilisée en tant que requête auprès des agents d'IDOL. Sinon, les critères de recherche, tels que les mots-clés, le langage naturel ou la recherche booléenne, peuvent être enregistrés dans IDOL. Ainsi, lorsqu'un document est analysé, seuls les critères qui s'appliquent à ce document sont renvoyés, offrant une opportunité incroyablement évolutive d'enregistrer les expressions booléennes pour évaluer de futurs documents. Le tableau suivant montre toutes les combinaisons possibles.

Livre blanc d'entreprise Page 12

Page 13: [Livre Blanc] L'intelligence augmentée

Classification

La classification couvre un large éventail d'activités dans le domaine de la récupération d'informations, mais nous pouvons résumer ce processus à un regroupement ou à un balisage des données destiné à simplifier le processus de récupération pour l'utilisateur.

IDOL exécute des classifications en natif dans le cadre du flux d'ingestion. Une fois les documents classés, l'utilisateur peut en profiter via la récupération paramétrique, le tri et le routage, le filtrage avancé ou des techniques de visualisation complexes.

La technologie de classification de base d'IDOL est centrée sur les mêmes techniques avancées d'appariement des formes que ses algorithmes de récupération. Ses méthodes brevetées s'appuient sur les principaux résultats de l'inférence bayésienne et de la théorie de l'information pour identifier automatiquement les formes qui apparaissent naturellement dans les données textuelles. Grâce à des méthodes de traitement des signaux numériques adaptatives non linéaires, l'analyse textuelle met en évidence des statistiques pour faire correspondre les idées et les concepts. De cette manière, les questions conceptuelles peuvent être rapidement réduites en équations de probabilité et analysées mathématiquement.

Ces techniques extensibles et indépendantes de la langue peuvent être appliquées à quasiment toutes les formes de contenu numérique. Les mêmes méthodes permettent aux ordinateurs de comprendre automatiquement les flux audio et vidéo, par exemple les flux télévisés ou les conversations téléphoniques, ainsi que toute forme de contenu textuel.

CatégorisationLa catégorisation est la forme la plus simple de classification et permet de trier les documents textuels en catégories prédéfinies.

Avec la catégorisation conceptuelle, les catégories sont automatiquement créées à partir d'un ensemble de documents pré-balisés via une étape « d'apprentissage » pendant laquelle des exemples de document de chaque catégorie sont identifiés manuellement et transférés à IDOL pour être intégrés. IDOL analyse ensuite les documents en référence à un corpus plus large de documents non balisés et crée un agent conceptuel qui représente cette catégorie. Une fois toutes les catégories apprises, le système est prêt à catégoriser les documents invisibles.

Livre blanc d'entreprise Page 13

Page 14: [Livre Blanc] L'intelligence augmentée

En plus d'éviter la création de catégories manuelles coûteuses, l'utilisation d'agents conceptuels renvoie une pondération probabiliste pour chaque correspondance de données. Au lieu de renvoyer une simple réponse par oui ou non, la pondération simplifie le seuillage et nous permet de classer les documents en plusieurs catégories.

De plus, IDOL prend en charge l'éventail complet de recherches par mot-clé, booléenne et opérations de proximité, de la simple expression booléenne aux constructions de pondération explicites et hautement complexes. Même ces systèmes hérités sont soumis à la pondération conceptuelle et brevetée d'IDOL, redonnant vie aux expressions autrement statiques. Les expressions peuvent être associées à des agents pour filtrer les résultats, en plus de la pondération conceptuelle. Dans nombre de ces systèmes, la majeure partie du coût de prise en charge de la taxonomie booléenne réside dans la main d'œuvre nécessaire à la création des expressions, car le personnel doit ajouter et supprimer les termes pour respecter la règle souhaitée. IDOL peut même réduire les coûts associés à la prise en charge de ces règles. La solution offre des outils interactifs pour générer, tester et manipuler d'anciennes ou nouvelles expressions, et suggère des termes et expressions à ajouter pour améliorer l'analyse.

Les techniques de base de catégorisation d'IDOL sont en majeure partie basées sur les méthodes bayésiennes, qui offrent la polyvalence requise pour atteindre un niveau d'exactitude élevée sur la large gamme de données reçues. En plus d'être indépendantes de la langue, ces techniques d'analyse des données fonctionnent aussi sur les données financières ou pharmaceutiques, mais également sur des petites catégories de même ou différentes tailles. Solution transparente, tous les aspects de la méthode de classification peuvent être contrôlés et testés à l'aide des paramètres de configuration et de formation.

De plus, les techniques bayésiennes sont optimisées pour répondre aux décisions binaires (par exemple, « Cet e-mail est-il un spam ? » ou « Ce document est-il adapté aux enfants ? »). Dans ce genre de situations, la plupart des techniques de classification échouent, car elles ont été conçues pour identifier des documents qui contiennent uniquement des caractéristiques limitées et s'appliquent donc uniquement à un petit sous-ensemble de corpus de documents. Les questions larges qui divisent le corpus en deux telles que les questions citées ci-dessus ne sont pas faciles à définir clairement via un petit ensemble d'exemples, et ne peuvent être décrites entièrement, même par une longue expression booléenne. Le classifieur BinaryCat d'IDOL répond spécifiquement à ces besoins. Il est capable d'effectuer une analyse détaillée sur deux ensembles de documents d'apprentissage (l'un représentant une réponse positive et l'autre une réponse négative), puis d'extrapoler grâce à ses connaissances statistiques du corpus afin de générer une catégorie qui peut être utilisée pour classer tous les futurs documents.

IDOL offre également des techniques basées sur les forêts aléatoires qui sont optimisées pour les courts extraits tels que la catégorisation des tweets. Ces techniques fonctionnent sur un appariement des formes granulaire qui est également idéal pour les catégories définies par un nombre réduit de caractéristiques positionnelles et structurelles, telles que le formatage ou le positionnement d'une partie de texte au sein d'un document.

ClusteringLa catégorisation est une technologie d'apprentissage supervisée, car elle apprend à imiter la classification telle que démontrée par les documents d'apprentissage balisés par les humains. Le clustering, au contraire, est un apprentissage non supervisé, car aucun conseil humain n'est donné. Avec le clustering, un corpus ou un sous-ensemble défini d'un corpus est analysé pour être divisé en ensembles de documents similaires. Résultat : le corpus est partitionné en plusieurs clusters, chacun ayant un agent conceptuel que nous pouvons utiliser pour effectuer d'autres analyses ou catégoriser d'autres documents dans le même ensemble de clusters.

Livre blanc d'entreprise Page 14

Page 15: [Livre Blanc] L'intelligence augmentée

Lors de la première étape du clustering, IDOL analyse chaque document et détermine ses principaux concepts en se basant sur la fréquence des termes et leurs relations avec le sens. IDOL associe ensuite les mesures statistiques à chaque concept en fonction de la pondération fournie par la modélisation adaptative du concept de probabilité (APCM). L'APCM est une technologie propriétaire de base au sein d'IDOL. Les caractéristiques et concepts sont identifiés au sein des documents à l'aide de techniques analogues à celles utilisées pour la création d'un agent conceptuel. Ces techniques attribuent une importance aux concepts, ainsi qu'à leurs relations. Elles sont notamment utilisées pour trouver des documents similaires ou des relations entre un profil et un type de documents. L'une des idées fondamentales de la pondération par l'APCM est que le corpus de connaissances analysé vous fournit une vision globale adéquate.

Les mesures de similarité entre les documents sont simplement dérivées des statistiques générées pour chaque document. Une méthode de clustering agglomérative hiérarchique est appliquée pour former des clusters naissants à mesure que les données s'accumulent. Ces clusters sont ensuite analysés pour en déterminer la force et valider la couverture et la cohérence de l'ensemble. Les clusters faibles, incohérents ou inutiles sont supprimés de l'ensemble.

Enfin, les informations supplémentaires sont extraites des clusters, telles que le titre du cluster, pour permettre aux utilisateurs d'en identifier rapidement le contenu. L'ensemble terminé est ensuite mis à disposition pour être examiné ou représenté sous la forme d'un graphique, notamment des cartes de cluster en 2 ou 3 dimensions. De plus, vous pouvez analyser des ensembles de clusters couvrant différentes périodes afin d'identifier les informations, par exemple les informations qui persistent dans le temps (visualisation par spectrographe), ou les informations fortes (Qu'est-ce qui est important ?), et les nouvelles de dernière minute (Quoi de neuf ?).

En plus de s'appuyer sur des techniques fondamentales d'appariement des formes et bayésiennes, IDOL utilise une nouvelle approche du clustering basée sur les résultats des mécaniques quantiques. Selon ces dernières, une fonction de vague quantique est générée autour de chaque document afin qu'un clustering incrémentiel et extensible puisse être facilement exécuté, sans refaire de calcul lors de l'ajout d'un nouveau document.

EductionIDOL propose une fonction de correspondance extensible et évolutive des entités prédéfinies via ses fonctionnalités d'éduction. Le module d'éduction réalise la gamme complète de tâches d'extraction intelligente d'entités au sein d'IDOL, et identifie automatiquement les métadonnées des documents. Les algorithmes d'analyse des données propriétaires qui supportent le code sont capables d'analyser à la fois le texte semi-structuré et non structuré afin d'extraire une large gamme de métadonnées, peu importe le formatage du texte.

En plus des entités standard prédéfinies telles que les dates, noms de personne, lieux, adresses, numéros de téléphone, adresses électroniques, numéro de sécurité social, etc., la fonction d'éduction fournit un langage sophistiqué permettant de définir les entités personnalisées. La configuration permet de faire correspondre toutes les expressions du dictionnaire et régulières pour obtenir une fonction d'extraction complète.

De plus, la technologie d'appariement des formes et statistique d'IDOL permet à la fonction d'éduction d'aller encore plus loin, car les règles de métadonnées peuvent également être intégrées. Un utilisateur fournit quelques exemples de formats d'entité, à partir desquels IDOL est ensuite capable de développer automatiquement des règles internes. La solution les utilisera ensuite pour localiser les entités similaires dans le texte.

Livre blanc d'entreprise Page 15

Page 16: [Livre Blanc] L'intelligence augmentée

Analyse des sentimentsLa détection des sentiments d'un document, par exemple le caractère positif, négatif ou neutre d'une critique, est une forme particulière de catégorisation. Les sentiments positifs et négatifs sont identifiés au sein d'un texte via des méthodes linguistiques et statistiques. Les résultats de cette analyse peuvent être utilisés pour souligner les extraits d'un document qui montrent les sentiments et pour identifier le sujet d'un sentiment. Par exemple, dans une critique de restaurant, la fonction permet d'identifier que la nourriture et le lieu sont critiqués positivement et que le service est critiqué négativement.

La fonction d'analyse des sentiments s'appuie sur deux principales technologies d'IDOL. La première est le module grammatical d'éduction qui permet la création de règles et de formes linguistiques extensibles afin de définir des expressions positives et négatives. La seconde est le module de catégorisation qui permet de classifier le texte en catégories positives, négatives et neutres. La seconde méthode présente l'avantage d'exécuter un apprentissage automatique afin d'identifier les caractéristiques qui définissent automatiquement les documents positifs et négatifs, ce qui fonctionne correctement sur des documents inhabituels ou utilisant une langue particulière.

Les grammaires de sentiments standard sont disponibles pour plusieurs langues et d'autres sont régulièrement créées.

Classification des contenus multimédiasNous pouvons également appliquer les techniques d'analyse des sentiments aux données multimédias telles que les fichiers image, son ou vidéo. Par exemple, nous pouvons classer le son en tant que discours, musique, silence, etc. Nous pouvons identifier les sons en tant que coup de feu ou alarme. Une voix peut être classée comme calme ou coléreuse, ce qui est particulièrement utile pour les systèmes de surveillance des centres d'appel.

Nous reparlerons de la classification des fichiers audio, image et vidéo plus en détail dans les sections traitant de la reconnaissance des formes.

Livre blanc d'entreprise Page 16

Page 17: [Livre Blanc] L'intelligence augmentée

Reconnaissance des formes audio

IDOL utilise ses connaissances approfondies et ses réseaux de neurones artificiels pour offrir une analyse audio de pointe.

Les réseaux de neurones artificiels ont été créés dans les années 1950, et leur utilisation pour la reconnaissance vocale existe depuis les années 1980. En fait, IDOL utilise les réseaux de neurones artificiels au sein de sa technologie vocale depuis ses débuts dans les années 1990. Plus récemment néanmoins, les réseaux neuronaux sont à la pointe en termes de reconnaissance vocale. D'importants investissements dans la recherche sur la reconnaissance vocale ont été réalisés ces dernières années ainsi que des avancées matérielles. Ce n'est que très récemment que l'on a enfin utilisé les réseaux de neurones artificiels pour la reconnaissance vocale grâce au matériel actuel.

Les réseaux de neurones artificiels semblent généraliser les sons de la parole bien plus efficacement que les algorithmes statistiques. Les sons de la parole sont en effet un peu plus complexes que les modèles statistiques utilisés auparavant et sont mieux appréhendés par les réseaux de neurones artificiels.

Les progrès matériels ont été essentiels dans cette avancée. La puissance de traitement est désormais beaucoup plus rapide. Plus important encore pour la parole, les unités de traitement graphiques, développées à l'origine pour l'affichage graphique des jeux vidéo, ont permis d'optimiser les tâches de multiplication de la matrice, qui constituent l'aspect le plus essentiel du processus d'apprentissage du réseau de neurones artificiels. Dans un même temps, les extensions CPU, grâce à leur parallélisme, ont amélioré la performance d'exécution.

Conversion de la parole en texteLa conversion de la parole en texte désigne le processus de traduction des mots prononcés en texte écrit. Ce processus est utilisé dans de nombreux contextes pour analyser, rechercher et traiter le contenu audio, par exemple les systèmes de commande et de contrôle, les logiciels de dictée, les recherches audio et vidéo ou le sous-titrage.

La technologie de conversion de la parole en texte d'IDOL a intégré plusieurs heures de données vocales et linguistiques pour apprendre les schémas vocaux. Ce processus d'apprentissage produit des modèles linguistiques, qui forment nos packs linguistiques. Nous modélisons l'acoustique et la linguistique de chaque langue. Le modèle acoustique identifie les sons vocaux (phonétiques) probables dans le fichier vocal, puis est associé au modèle lexical et linguistique pour arriver à la séquence de mots la plus probable.

Livre blanc d'entreprise Page 17

Page 18: [Livre Blanc] L'intelligence augmentée

Personnalisation linguistique et adaptation acoustiqueIDOL a besoin de packs linguistiques pour effectuer les tâches de traitement vocal. Un pack linguistique comprend un modèle linguistique et un modèle acoustique. Les deux composants clés du modèle linguistique sont les dictionnaires de vocabulaire et de prononciation, plus les probabilités de mots N-gram de corpus.

Le modèle linguistique couvre un large vocabulaire reflétant le langage courant. Cependant, pour un système couvrant des sujets spécifiques, tels que les domaines financiers ou médicaux, il peut manquer au modèle linguistique standard des structures ou du vocabulaire spécialisés. Dans ce cas, IDOL peut concevoir des modèles linguistiques personnalisés.

La conception d'un nouveau modèle linguistique implique une grande quantité de texte, de l'ordre de millions ou de milliards de mots, et les packs linguistiques standard sont généralement formés de plusieurs milliards de mots. Ainsi, la meilleure manière de personnaliser un modèle linguistique consiste à concevoir un modèle personnalisé réduit utilisant du texte spécialisé, puis de l'associer au modèle standard.

De plus, IDOL permet d'adapter les modèles acoustiques disponibles dès l'installation de la solution pour qu'ils correspondent au plus près aux propriétés acoustiques des ensembles de données audio spécifiques. L'adaptation du modèle à l'aide de données représentatives (en termes de qualité d'enregistrement et d'accent) permet d'améliorer les résultats de la conversion de la parole en texte.

Analyse audioIDOL s'appuie sur plusieurs techniques de traitement audio propriétaires pour permettre l'utilisation d'autres techniques d'analyse sur les flux audio. Par exemple, la segmentation des locuteurs, qui détermine les transitions entre deux locuteurs, et l'identification des locuteurs, qui identifie les locuteurs en fonction de leurs caractéristiques vocales, utilisent des techniques de traitement du signal pour extraire les principales caractéristiques du fichier audio. Elles utilisent ensuite l'appariement des formes pour déterminer la probabilité d'un locuteur spécifique sur un segment donné. Nous pouvons apprendre à ce système à utiliser les échantillons vocaux de chaque locuteur pour créer des modèles de locuteur ou à utiliser des modèles préchargés qui permettent de déterminer le genre du locuteur.

L'identification de la langue consiste à déterminer la langue parlée. Il n'est pas nécessaire d'identifier les mots du contenu pour déterminer la langue. IDOL tente d'abord d'identifier les sons ou les phonèmes dans le discours, puis choisit une langue qui a la distribution de phonèmes la plus proche. En plus de détecter un grand nombre de langues dès l'installation de la solution, le système est extensible grâce à la conception de classifieurs linguistiques définis par l'utilisateur. Ils sont formés à l'aide d'échantillons de discours dans la langue concernée.

L'alignement de la transcription attribue des codes temporels à tous les mots d'une transcription audio, même si elle comprend du bruit ou des sections manquantes. Les codes temporels générés sont normalement exacts à une demi-seconde près. Cette technique est utilisée sur les systèmes qui génèrent automatiquement des sous-titrages à partir de transcriptions manuelles ou qui offrent la possibilité de changer de position à l'aide d'un mot. Cette fonction peut à son tour être utilisée pour vérifier le respect du script et déterminer, par exemple, si l'opérateur du centre d'appel récite le script établi.

Livre blanc d'entreprise Page 18

Page 19: [Livre Blanc] L'intelligence augmentée

IDOL permet de classer automatiquement un son en tant que musique, bruit ou discours. Ceci peut être utile lorsque vous voulez convertir des paroles en texte lorsqu'un fichier audio contient de la musique. Vous pouvez associer ces opérations de sorte que la transcription de parole en texte soit uniquement réalisée pour les segments audio classés en tant que discours. Les mêmes techniques d'appariement des formes s'étendent pour permettre l'apprentissage d'autres catégories sonores. Parmi les catégories disponibles, on distingue notamment la classification de sécurité, capable de détecter les segments sonores contenant des sons tels que des alarmes, des alarmes de voiture, du verre brisé, des cris et des coups de feu.

De plus, IDOL réalise plusieurs autres opérations sur le contenu audio, notamment le calcul du ratio signal-bruit et l'identification du seuil d’écrêtement du signal audio afin d'en déterminer la qualité.

Reconnaissance sonoreEgalement connue sous le nom d'empreinte acoustique, l'identification de l'empreinte sonore génère le résumé numérique d'un échantillon sonore pour l'identifier rapidement ou pour localiser des échantillons similaires au sein d'une base de données. Cette technique présente de nombreuses applications, notamment pour l'identification de chansons ou jingles, la détection de publicités ou le balisage de pistes média, telles que le discours inaugural du président Obama. Dans tous les cas, le système est capable d'utiliser un nombre illimité d'extraits sonores pour l'apprentissage de sa base de données, et l'échantillon sonore à identifier n'a pas besoin d'être une copie exacte de l'original.

Recherche d'éléments phonétiquesLa recherche phonétique désigne le processus de recherche de mots et de phrases en fonction de leur prononciation.

Les phonèmes sont des unités fondamentales sonores qui composent la langue parlée. Par exemple, le mot vache comprend trois phonèmes ou sons : v–a–che.

Le moteur d'identification des phonèmes analyse d'abord le fichier audio pour créer une piste temporelle des phonèmes, qui rapporte le moment auquel chaque phonème apparait sur le fichier. Il s'agit d'un processus unique. IDOL recherche ensuite les données de suivi temporel des phonèmes pour les mots et expressions spécifiés. Sur un ordinateur de bureau typique, le processus de recherche peut fonctionner 100 fois plus rapidement qu'en temps réel.

La recherche d'expressions phonétiques dépend de la langue.

Il est préférable d'effectuer une opération complète de conversion de la parole en texte plutôt qu'une recherche phonétique, car la première ouvre l'ensemble des opérations IDOL, dont la recherche conceptuelle. Cependant, il existe des cas où vous pouvez avoir des exigences spécifiques, et notamment utiliser des mots-clés et l'identification d'expression ou encore limiter les ressources matérielles. La recherche phonétique peut être utilisée dans ces cas spécifiques.

La recherche phonétique est particulièrement utile dans les cas où les inexactitudes inévitables de la transcription ordinaire entraînent l'oubli de documents au moment de la recherche. Grâce à la recherche phonétique, la recherche du mot fraude peut renvoyer des résultats où le mot a été incorrectement transcrit en tant que Ford et les marquer d'un niveau de confiance inférieur, permettant à l'utilisateur d'établir un seuil de recherche en fonction de ses exigences.

Livre blanc d'entreprise Page 19

Page 20: [Livre Blanc] L'intelligence augmentée

Reconnaissance des formes d'image

Les humains reconnaissent les objets, les personnes ou les emplacements sans effort apparent. Lorsque nous voyons un objet pour la première fois, nous l'étudions, mémorisons ses propriétés visuelles uniques et en effectuons un modèle mental que nous conservons pendant une certaine période. Lorsque nous revoyons cet objet, nous essayons de faire correspondre ses propriétés visuelles avec les modèles enregistrés dans nos cerveaux. IDOL s'appuie sur une approche similaire pour automatiser le processus de reconnaissance des objets à partir d'images. IDOL fournit des algorithmes de vision artificielle pour reconnaître des formes répétitives ou inhabituelles dans les images d'objets, de texte, de personnes et de scènes.

Généralement, les données d'entrée brutes varient en fonction d'une multitude de facteurs. Ainsi, la dimensionnalité des données d'entrée est très large. Pour simplifier la tâche de détection des formes dans une entrée hautement dimensionnelle, l'entrée est mappée sur un petit nombre de nouvelles dimensions. Ce processus est appelé extraction des caractéristiques. Parfois, les caractéristiques sont choisies pour compresser les données d'entrée plutôt que pour réduire leur dimensionnalité. Par exemple, si nous voulons simplifier les images de texte en lignes, boucles ou points. Dans d'autres cas, si la dimensionnalité d'entrée est assez basse et qu'il n'est pas possible de diviser les données en formes, nous pouvons mapper l'entrée en dimensions supérieures pour mieux distinguer les formes. Lorsque l'on assiste à une distorsion des perspectives, il faut regarder les dérivés de deuxième et troisième ordres de l'image pour identifier correctement la distorsion. Les caractéristiques sont choisies pour optimiser le contenu des informations des données d'entrée pour la tâche à accomplir. L'approche d'ingénierie traditionnelle de reconnaissance des formes s'appuie sur les connaissances heuristiques pour choisir les caractéristiques, alors que l'approche de l'apprentissage automatique de la vision artificielle apprend automatiquement les caractéristiques à partir d'un ensemble d'images d'apprentissage. Dans les deux cas, les caractéristiques sont choisies en fonction de la compréhension du problème à résoudre et sont soumises aux mesures de qualité et d'exactitude de sortie souhaitées.

Une fois que nous choisissons les caractéristiques, nous les encodons, ainsi que les relations qui les lient, pour créer un modèle. Grâce à l'optimisation de la connectivité Internet et à la baisse du prix des caméras, une grande quantité de données visuelles partiellement étiquetées sont disponibles. Nous utilisons des techniques statistiques de reconnaissance des formes, dont les réseaux de neurones, pour apprendre les modèles probabilistes de ces données. Dans d'autres cas, le problème concerne l'estimation de quantités inconnues de données d'entrée souvent bruitées. Nous utilisons alors les techniques d'inférence bayésiennes. Dans les cas où les données d'apprentissage sont limitées, nous utilisons des approches d'ingénierie pour trouver le meilleur modèle global.

Livre blanc d'entreprise Page 20

Page 21: [Livre Blanc] L'intelligence augmentée

Reconnaissance optique de caractèresL'un des premiers défis en termes de reconnaissance des formes a été la reconnaissance optique de caractères, qui consiste à déchiffrer le texte à partir d'images de texte imprimés. Pour commencer, nous segmentons l'image d'entrée afin de séparer le texte en premier plan de l'arrière-plan. A ce stade, nous devons gérer les défauts liés à la numérisation ou les effets lumineux, tels que les ombres ou les reflets spéculaires. Ensuite, nous regroupons les régions adjacentes au premier plan pour former des mots potentiels et les transférons vers un classifieur de caractères. Les mots en résultant sont ensuite vérifiés à l'aide d'un dictionnaire et de certaines règles linguistiques avant toute validation du mot. Ce processus peut être répété, afin que plusieurs mots adjacents puissent être associés pour former des mots plus longs ou que les mots composés soient divisés en mots plus courts. La reconnaissance optique de caractères d'IDOL prend en charge un grand nombre de scripts et de langues, et fournit également une fonction d'identification automatique des langues. Cette fonction est fréquemment utilisée pour lire automatiquement les textes de documents ou de photos, économisant de nombreuses heures de travail manuel laborieux.

Reconnaissance des codes-barresLa reconnaissance des codes-barres représente un autre défi. Les techniques utilisées pour la reconnaissance des codes-barres sont similaires à celles utilisées pour la reconnaissance optique de caractères, sauf que nous apprenons à l'algorithme à rechercher des lignes (codes-barres linéaires) ou des carrés (codes QR) au lieu de caractères alphanumériques. Une fois les lignes ou les carrés localisés, un décodage potentiel des codes-barres est déterminé. Tout comme la reconnaissance optique de caractères, les éléments sont transférés vers un classifieur pour classer les groupes de lignes ou de carrés. Le classifieur les vérifie par rapport aux normes de code-barres et corrige les erreurs, si nécessaire. La simplicité de ses caractéristiques (lignes ou rectangles) et ses normes limitées optimisent la robustesse du code-barres face aux données d'entrée bruitées. C'est la raison pour laquelle la reconnaissance des codes-barres est utilisée quasi universellement dans les supermarchés pour le suivi des inventaires, l'expédition et la logistique. Les codes QR sont composés de carrés, organisés sur une matrice en deux dimensions. La forme inclut ainsi des informations d'alignement et de taille. Ceci permet d'améliorer la capacité de stockage. Plus important encore, les codes QR peuvent être lus par des caméras numériques. Ils sont donc les codes les plus numérisés par les téléphones mobiles. IDOL propose des algorithmes de reconnaissance des codes-barres robustes, capables d'identifier plusieurs codes-barres et codes QR au sein d'une image, indépendamment de son orientation.

Traitement des images humainesLe processus de localisation d'objets décrit par certaines caractéristiques au sein d'une image est appelé détection d'objet. La reconnaissance faciale est l'exemple le plus connu de détection d'objet. Son objectif est d'identifier tous les visages présents sur une image. D'abord, les caractéristiques visuelles sont extraites pour rechercher certaines formes récurrentes pour les visages, telles que la forme en T créée par les yeux et le nez. Après l'examen des formes au sein des différentes parties de l'image, chaque partie est classée dans une catégorie, faciale ou non. Ensuite, les résultats sont associés à l'aide d'un classifieur optimisé.

Le classifieur optimisé utilise la somme pondérée de plusieurs classifieurs inférieurs qui répondent à de simples questions, menant à un classifieur supérieur capable de répondre à des questions complexes. Pendant l'apprentissage, les pondérations de ces classifieurs inférieurs sont intégrées et lors de la détection, un mécanisme en cascade est utilisé pour mettre rapidement de côté les échantillons négatifs. Nous pouvons utiliser la détection faciale d'IDOL et la fonction de reconnaissance faciale pour trouver et identifier des personnes dans une image ou une vidéo. Nous pouvons détecter des visages sur des images de mauvaise qualité et des photos de groupe aux arrière-plans bruités. La fonction de détection et de reconnaissance rapide d'IDOL est déjà utilisée par plusieurs entités dans des applications de sécurité, de surveillance et de service clients.

Livre blanc d'entreprise Page 21

Page 22: [Livre Blanc] L'intelligence augmentée

La détection des piétons est un problème plus complexe. Alors qu'un visage présente une forme et une apparence bien définies, les piétons peuvent avoir l'air extrêmement différents selon ce qu'ils portent, la distance entre eux et la caméra, qu'ils bougent ou qu'ils sont seuls ou en groupe. Pour les applications de sécurité, il n'est pas possible de détecter de manière fiable le visage des piétons qui se trouvent trop loin de la caméra. De plus, il est parfois nécessaire de détecter les piétons même quand ils ont le dos tourné à la caméra. La détection faciale et la détection des piétons s'appuient sur des techniques similaires, mais différentes caractéristiques sont utilisées. La forme en Ω caractérisant la tête et les épaules est généralement recherchée.

La détection des piétons est très utilisée dans les applications de sécurité automobiles pour détecter automatiquement les piétons sur la route et alerter le conducteur. Lorsque des données vidéo sont disponibles, les informations de mouvement peuvent fournir des indices très utiles sur la localisation des objets et faciliter la mise en évidence des objets au premier plan par rapport à ceux situés à l'arrière-plan.

La détection des piétons peut être utilisée dans le comptage des personnes. Il est très courant actuellement de recevoir des alertes sur la saturation ou la congestion des stations de métro, de train, des festivals de musique ou des événements sportifs.

Le comptage de personnes s'appuie la plupart du temps sur plusieurs classifieurs pour déterminer si chaque région de l'image comprend une ou deux personnes, un petit nombre de personnes, par exemple une famille, ou un groupe important de personnes. Une fois le résultat de la classification disponible, la fonction utilise les informations préalables et les données de post-traitement de la scène pour obtenir le nombre total de personnes dans un cadre donné. Les indices de mouvement obtenus à partir des données vidéo facilitent considérablement l'analyse.

Le comptage de personnes est fréquemment utilisé pour analyser un trafic normal par rapport à un trafic saturé. Les systèmes sont entraînés à gérer les formes normales telles que le trafic des gares ferroviaires pendant les heures de pointe, mais peuvent envoyer une alerte lorsqu'un trafic supérieur est constaté en dehors des heures de pointe. Le comptage de personnes va au-delà de la détection des piétons, car la fonction peut analyser non seulement le nombre de personnes, mais aussi leur regroupement et leurs mouvements. La saturation des gares ferroviaires lors d'événements sportifs est plus probablement due à l'entrée et aux mouvements de groupes de personnes plutôt qu'à des voyageurs seuls qui se déplacent de manière plutôt prévisible. Nous utilisons également les techniques d'inférence bayésiennes pour repérer les mouvements de personnes inhabituels en fonction des connaissances dont nous disposons sur le lieu.

Les autres applications du traitement des images humaines sont l'analyse des propriétés telles que l'âge, le genre, les expressions faciales et différents attributs, par exemple les lunettes, la pilosité faciale ou la couleur des cheveux. Ces informations complémentaires peuvent être très utiles pour réduire le nombre d'identités à étudier lorsque vous effectuez une recherche dans une grande base de données, accélérant ainsi les résultats.

Reconnaissance facialeUne fois un visage localisé et analysé au sein d'une image, l'étape suivante consiste à associer ce visage à une personne. La reconnaissance faciale est l'une des applications quotidiennes les plus populaires de la vision artificielle. Nous reconnaissons les visages si facilement que nous ne réfléchissons pas à la complexité de l'analyse en arrière-plan. Les algorithmes informatiques ne parvenaient pas à avoir d'aussi bons résultats que les humains, mais plusieurs décennies de recherche dans ce domaine ont permis d'améliorer la performance des algorithmes de reconnaissance faciale. En fait, la capacité des humains à distinguer les visages qu'ils ne connaissent pas est assez faible, et les algorithmes de reconnaissance faciale actuels de pointe ont commencé à surpasser les performances humaines pour les visages moins familiers.

Livre blanc d'entreprise Page 22

Page 23: [Livre Blanc] L'intelligence augmentée

L'algorithme de reconnaissance faciale d'IDOL utilise des réseaux de neurones convolutifs approfondis. Le réseau de neurones est entraîné sur un nombre important de visages afin d'intégrer les caractéristiques faciales distinctives à partir de plusieurs photos d'une même personne, ainsi que les différences de caractéristiques faciales distinctives à partir de photos de deux personnes différentes. L'apparence d'une personne peut changer en fonction de la lumière, de l'angle de vue, des expressions faciales ou du maquillage. De plus, les images test peuvent être en résolution faible et présenter des défauts. Notre processus d'apprentissage prend en compte ces facteurs pour produire des traits hautement distinctifs pour chaque visage. Une fois qu'IDOL traite ces caractéristiques, la tâche d'identification d'une personne consiste tout simplement à rechercher la meilleure correspondance dans la base de données. La reconnaissance faciale est le plus souvent associée aux applications de sécurité, mais une large gamme d'applications grand public, telles que la retouche photo, l'authentification visuelle, le suivi des patients et le contrôle parental utilisent la reconnaissance faciale.

Reconnaissance d'objetsIl est parfois utile de détecter certains objets, par exemple la marque d'une société ou l'emballage d'un produit spécifique. Même si l'objet est bien défini, la reconnaissance d'un objet peut être difficile, car l'objet peut être vu d'un d'angle différent, sur un arrière-plan encombré, ou être partiellement caché. IDOL fournit des algorithmes pour la reconnaissance des objets rigides en 2D et 3D.

La première étape du processus de reconnaissance des objets consiste à extraire les caractéristiques distinctives de l'image. Les caractéristiques doivent être suffisamment descriptives pour permettre l'identification, mais également compactes pour être stockées efficacement. Elles doivent aussi s'adapter aux différents angles de vue et aux variations de lumière. Les caractéristiques et les relations spatiales entre elles sont enregistrées dans un modèle dans la base de données. Lorsqu'une image test est identifiée, les caractéristiques extraites de l'image sont comparées à celles de la base de données.

Une structure arborescente peut d'abord être utilisée pour obtenir rapidement des correspondances approximatives, qui seront affinées ultérieurement. Une fois les correspondances approximatives trouvées, un algorithme de vote est utilisé pour déterminer le modèle correspondant le plus probable. L'algorithme de vote rejette les ensembles de correspondances qui ne sont pas cohérents avec la position géométrique attendue et les contraintes d'échelle. L'identification des objets 3D pose un autre défi, car les relations géométriques entre les caractéristiques sont plus complexes, et seule une fraction du nombre total de caractéristiques est visible d'un certain point de vue. IDOL s'appuie sur des techniques avancées de vision artificielle géométrique pour résoudre les défis de la reconnaissance des objets 3D.

La reconnaissance des objets IDOL est largement utilisée dans le commerce pour la gestion des inventaires, le marketing ciblé et la publicité. Elle est également utilisée dans le domaine de l'authentification visuelle pour contrôler les accès à certaines zones, et dans les jeux vidéo pour offrir des contenus de jeux personnalisés.

Un autre exemple courant de reconnaissance des formes textuelles à partir de données visuelles est celui de la reconnaissance automatique des plaques d'immatriculation. Ici encore, les principes sont quasiment les mêmes que ceux de la reconnaissance optique de caractères, mais seule la plaque d'immatriculation est localisée sur l'image du véhicule. Ceci peut être difficile si le véhicule portant la plaque d'immatriculation se déplace rapidement, car l'image capturée peut être floue. La plaque d'immatriculation peut être sale, ou insuffisamment contrastée. Les formats des plaques d'immatriculation sont différents d'un pays à l'autre. La stabilisation de l'image et l'extraction des plaques d'immatriculation sont les plus grands défis en matière de reconnaissance automatique des plaques d'immatriculation.

IDOL utilise des algorithmes de stabilisation avancés pour fournir une image claire des plaques d'immatriculation, puis demande à un classifieur basé sur un réseau de neurones d'identifier les caractères de la plaque d'immatriculation. Nous pouvons également appliquer une reconnaissance des objets avancée pour surveiller des véhicules et en identifier la marque et le fabricant. En associant ces informations à la reconnaissance des plaques d'immatriculation, il est possible d'identifier automatiquement les véhicules avec des plaques volées. De plus, la fonction de reconnaissance des plaques d'immatriculation d'IDOL a été utilisée avec succès pour détecter les véhicules non assurés, le non-respect des feux tricolores, ou pour surveiller les mouvements de véhicules au sein d'une zone spécifique.

Livre blanc d'entreprise Page 23

Page 24: [Livre Blanc] L'intelligence augmentée

La capacité d'IDOL à extraire les caractéristiques locales éparses mais invariablement fiables et à appliquer les contraintes géométriques permet de mesurer les similitudes entre les différentes parties d'image. Jusqu'à maintenant, les algorithmes de détection des similarités dans les images s'appuient sur des statistiques grossières telles que des histogrammes en couleur, dégradés, ou l'étalement en bloc. Cependant, ces approches échouent lorsque les images sont modifiées ou délibérément détériorées. Par exemple, une image peut être rognée par rapport à l'image originale, mise en miroir, contenir des balises textuelles, ou des objets similaires mais vus sous un autre angle. En utilisant uniquement les statistiques globales, ces modifications rendraient l'image différente de l'originale.

IDOL a la capacité de comparer les images en fonction de leur contenu. La solution utilise des caractéristiques locales fiables pour extraire les parties similaires dans deux images afin que les résultats ne soient pas affectés par le rognage, la mise en mémoire ou les balises textuelles. IDOL peut reconnaître les similarités en dépit des différents angles de vue, des occlusions partielles ou des dégradations. Elle peut également fournir des informations sur la transformation de l'image (mise à l'échelle, translation et distorsion des perspectives) reliant les deux images. Cette fonction permet à l'utilisateur d'envoyer une simple image en tant que requête plutôt que d'avoir à décrire le contenu de l'image. Les requêtes textuelles pour la recherche d'images sont sujettes aux erreurs de balises et de métadonnées associées aux images. En général, les recherches d'images renvoient des résultats bien plus pertinents comparés à des requêtes uniquement textuelles. Les applications de cette technologie incluent la recherche de similarités dans une image, la détection des faux, la détection des films piratés et les achats basés sur la recherche visuelle.

Classification des imagesLa classification des images permet d'identifier des catégories d'objets plutôt que des instances spécifiques, par exemple toutes les voitures au lieu d'une Ferrari 488 ou d'une Mercedes classe S. La classification des images est essentiellement une fonction de reconnaissance au niveau des catégories et est plus complexe que la reconnaissance d'objets spécifiques, car elle a besoin de gérer les variations au sein de la catégorie ainsi qu'entre les catégories. Les catégories peuvent être larges ou étroites selon les exigences de l'utilisateur. Plus la catégorie est large, plus le problème est difficile.

La classification des images permet aux utilisateurs de baliser automatiquement de grandes quantités de données visuelles qui décrivent le contenu des images. Il est ainsi possible de comparer les images sur la base du contenu visuel sémantique. Un large éventail d'applications s'ouvre ainsi à l'utilisateur, notamment l'identification de formes ou de tendances au sein de groupes de photos, la recherche de certains types de contenus et la recherche d'images correspondant à des critères spécifiques, par exemple un "homme avec une voiture rouge et un chien noir".

L'algorithme de classification des images d'IDOL utilise des réseaux de neurones convolutifs approfondis pour apprendre les caractéristiques qui décrivent le mieux les variations au sein des catégories d'objets et entre elles. Nous offrons également une fonction prête à l'emploi pour les utilisateurs souhaitant baliser un grand nombre d'images. Pour chaque image entrée, le classifieur produit un ensemble d'étiquettes et de scores associés qui décrivent le contenu le plus important de l'image. Les étiquettes correspondent aux centaines de catégories que le classifieur est entraîné à reconnaître et incluent des étiquettes pour les objets quotidiens, les animaux courants ou les emplacements. En plus des descriptions du contenu de l'image, nous fournissons également les notes de probabilité correspondantes, afin que les catégories les plus importantes puissent être automatiquement recherchées et enregistrées.

Les catégories utilisées pour la classification de l'image ne sont pas toujours connues au départ. Par exemple, un conseil municipal peut accepter de recevoir les photos de ses habitants sur son site Web. La plupart du temps, les photos sont ordinaires. Mais en cas de catastrophe naturelle, il peut y avoir des photos de la zone sinistrée. L'algorithme de classification automatisée des images d'IDOL analyse ces images et les trie en différentes catégories, par exemple "normal" ou "inondé", "normal" ou "incendie". Comme les catégories peuvent uniquement être déterminées au cas par cas, nous fournissons une fonction qui permet d'entraîner les classifieurs. Ceci permet aux utilisateurs d'IDOL d'étiqueter les images en fonction des catégories qu'ils souhaitent utiliser, plutôt que d'être limités aux catégories fournies par les classifieurs pré-entraînés.

Livre blanc d'entreprise Page 24

Page 25: [Livre Blanc] L'intelligence augmentée

Vision artificielle géométrique

La vision artificielle géométrique est un champ important de la technologie d'IDOL. Elle associe les connaissances de plusieurs domaines, notamment de la géométrie, des statistiques, de la physique, de l'informatique et de la physiologie pour comprendre l'aspect et la forme du monde en trois dimensions. Tout objet 3D, lorsqu'il est vu sous un angle différent, produit une autre image 2D. Le processus de projection du monde 3D sur un plan d'image en deux dimensions entraîne une perte de qualité. Le but de la vision artificielle géométrique est de récupérer ces informations en s'appuyant sur un nombre suffisant de vues de la scène. Une compréhension correcte de la géométrie projective nous permet également de synthétiser l'aspect à partir de l'angle de vue, ou de déterminer l'angle de vue à partir de l'aspect. Les deux fonctions peuvent être essentielles dans un grand nombre d'applications.

Trois domaines théoriques spécifiques permettent de mettre en œuvre la vision artificielle de la solution IDOL : la cartographie et la localisation simultanées (SLAM), la reconstruction 3D et la détection des changements.

Cartographie et localisation simultanées La plupart des smartphones disposent d'une caméra, et ces caméras sont de plus en plus petites et performantes. La technologie de détection intelligente des scènes a donc été développée sur les périphériques mobiles, avec une seule caméra et sans aucune lumière infrarouge supplémentaire. Une catégorie d'algorithmes de cartographie et de localisation simultanées (SLAM) permet aux utilisateurs de suivre et d'intégrer simultanément la forme et l'aspect d'une scène 3D. La technologie SLAM fournit instantanément la position de la caméra et un nuage de points épars décrivant toutes les positions 3D des objets les plus distinctifs de la scène.

Livre blanc d'entreprise Page 25

Page 26: [Livre Blanc] L'intelligence augmentée

La technologie SLAM peut également être vue comme un problème d'optimisation du graphe. Le graphe est composé de nœuds qui représentent les positions de la caméra (poses). Les observations communes des objets de la scène forment les connexions entre les nœuds du graphe. A partir des vues et de la position de la caméra sur différents points de la trajectoire, nous pouvons prédire la position de la caméra sous un angle de vue inconnu. Ceci peut faire l'objet de deux processus exécutés simultanément. Le suivi est un processus de construction du graphe de poses : il fait correspondre les objets vus aux objets de la vue actuelle et estime la position de la caméra. La cartographie désigne le processus d'optimisation du graphe de poses. Elle identifie les nouveaux objets dans la scène, ajoute et met à jour leurs représentations et affine les positions et les distances des objets vus précédemment. Le suivi s'appuie ensuite sur la carte mise à jour et obtenue à partir du processus de cartographie pour trouver les objets correspondants dans le cadre actuel.

La technologie SLAM est initialisée avec deux cadres à partir d'une vidéo de la scène. Les objets qui s'affichent dans les deux cadres sont mis en correspondance et la position 3D de l'objet est estimée par triangulation. Les positions 3D des objets mis en correspondance et la position de la caméra associée à chaque élément saillant donnent une carte initiale. Notre algorithme choisit automatiquement ces deux cadres. Ainsi, le processus complexe d'initialisation de la technologie SLAM est clair pour l'utilisateur. L'algorithme d'initialisation automatique est particulièrement important dans les situations où l'algorithme SLAM exerce un contrôle limité sur les mouvements de la caméra et la scène vue, ou en cas d'impossibilité d'interaction avec l'utilisateur, par exemple dans le cas de séquences capturées par un véhicule aérien sans pilote (UAV).

Pour fiabiliser notre suivi sur les mouvements de caméra rapides et les occlusions occasionnelles, nous utilisons la position, l'orientation et les contraintes de pose de la caméra pour limiter la zone de recherche sur la carte. Notre système de suivi est donc non seulement rapide mais aussi très précis, car nous ne faisons pas correspondre des zones non pertinentes de la carte. Le suivi peut occasionnellement échouer à cause d'occlusions, de mouvements rapides ou d'un manque de caractéristiques saillantes. Comme les contraintes de pose ne peuvent être utilisées en cas d'échec du suivi, nous recourons à une recherche arborescente fortement optimisée du plus proche voisin pour trouver les correspondances sur l'ensemble de la carte. Une fois les correspondances trouvées, nous pouvons estimer la pose de la caméra et le suivi peut être relancé.

Les positions 3D des objets et les poses de la caméra (la carte) sont ajustées par le fil de cartographie à l'aide d'un processus semblable à celui du gradient conjugué, appelé estimation de pose. Généralement, ce processus représente la partie la plus coûteuse de l'implémentation SLAM, car il est réalisé sur l'ensemble de la carte. Nous utilisons une technologie de propagation des erreurs pour inclure des parties de la carte dans l'estimation de pose. Nous prenons la décision d'inclure ou d'exclure des parties de la carte dans le processus d'estimation de pose sur la base de leur connexion au graphe de poses par rapport à la partie actuellement visible de la carte. Notre algorithme est ainsi efficace et extensible, ce qui nous permet de concevoir de grandes cartes exécutées en permanence. Nous pouvons créer des cartes d'une exécution de plusieurs dizaines de minutes à partir d'une scène filmée sur un smartphone. Sur les ordinateurs de bureau, nous pouvons concevoir des cartes beaucoup plus grandes et sommes uniquement limités par la RAM.

Généralement, les algorithmes SLAM ont du mal à créer de grandes cartes, car le calcul s'adapte de manière quadratique à la taille de la carte, mais notre solution offre une extensibilité linéaire et permanente. L'algorithme suit et apprend à peu près à la même vitesse lors d'une exécution longue. Notre système est exécuté en temps réel sur la plupart des ordinateurs personnels et périphériques mobiles. La polyvalence de notre système permet une utilisation sur un large éventail d'applications. Il peut être intégré à des caméras attachées au corps, à des téléphones portables ou à des clusters d'ordinateurs de bureau. Notre système SLAM est une plate-forme fiable sur laquelle vous pouvez concevoir un grand nombre d'applications 3D passionnantes. Les applications de la technologie SLAM couvrent différents domaines tels que l'analyse de scènes 3D, l'impression 3D et l'analyse de séquences UAV, la surveillance, la réalité augmentée et les systèmes d'assistance à la navigation.

Livre blanc d'entreprise Page 26

Page 27: [Livre Blanc] L'intelligence augmentée

Reconstruction 3DNotre logiciel de numérisation 3D vous permet de créer des avatars numériques des objets quotidiens. Il vous suffit de filmer un objet sous tous les angles. Vous envoyez la vidéo dans SLAM, qui génère des estimations précises de la position et de l'orientation de la caméra. Etant donné les connaissances préalables de l'objet en premier plan, l'algorithme sépare l'objet de l'arrière-plan. Ces informations de premier plan et d'arrière-plan, associées aux estimations de la position de la caméra, permettent à SLAM de créer un modèle 3D de l'objet. La disponibilité du feedback interactif vous permet de visualiser le modèle 3D quasiment instantanément. Ce logiciel s'exécute aisément sur les smartphones ordinaires, s'appuie sur les données visuelles d'une seule caméra et ne dépend pas de lasers ni de capteurs de profondeur à infrarouge. Notre logiciel est capable de numériser tous les objets, quelle que soit leur taille. De plus, vous n'avez pas besoin de placer les objets sur une plaque tournante pour créer une version digitalisée de l'objet.

Les modèles 3D créés à l'aide de notre logiciel interactif peuvent ensuite être utilisés pour différentes applications, y compris l'impression 3D. Même si l'impression 3D devient de plus en plus rapide et économique, et accessible aux particuliers, la numérisation 3D reste coûteuse et réservée aux spécialistes. Notre technologie facilite la création de modèles 3D, disponible partout et à moindre coût. La fonction est désormais accessible aux amateurs, aux particuliers et aux entreprises.

Détection des changementsDe plus en plus de données sont capturées par différentes sources allant des caméras des smartphones personnels aux équipements de surveillance sophistiqués. Les données vidéo peuvent être hautement répétitives. Il est donc vital d'automatiser les processus qui réduisent le volume des données requérant une inspection humaine. Exemples de recherche : recherche d'objets (personnes ou véhicules) disparus, détection de nouveaux objets, ou identification d'objets qui ont été déplacés. Vous pouvez également utiliser cette technologie pour révéler des défauts d'équipements ou des mouvements suspicieux dans des applications de surveillance. La recherche automatique de tels événements est appelée détection de changements.

Notre système de détection des changements permet d'identifier en temps réel des modifications au sein de scènes 3D sur des périphériques mobiles, à l'aide d'une simple caméra. Pour offrir un feedback immédiat, nous employons une technologie de suivi 3D et un algorithme de cartographie (SLAM) plutôt que d'effectuer une reconstruction 3D complète de la scène, car dans certains cas ceci peut être trop long.

Pour utiliser ce système, une scène 3D est numérisée par une seule caméra en mouvement. Pendant ce temps, la technologie SLAM intègre l'environnement 3D en cours de numérisation et enregistre les informations sur la position relative des objets ainsi que la position et l'orientation de la caméra proprement dite au sein d'une carte. Lorsque la scène est numérisée une seconde fois, à l'aide de la carte de référence enregistrée, SLAM estime la nouvelle position de la caméra, et toute modification par rapport à la scène d'origine est détectée et présentée à l'utilisateur. Les prédictions de modification d'une partie de la scène par rapport à la scène de référence peuvent être réalisées à partir des connaissances de la géométrie 3D de la scène. Pour utiliser ces connaissances, nous nous appuyons sur des statistiques avancées de correspondance des caractéristiques ainsi que sur une correspondance des parties locales normalisées en fonction de l'angle de vue.

Livre blanc d'entreprise Page 27

Page 28: [Livre Blanc] L'intelligence augmentée

Abonnez-vous sur

En absence de connaissance de la géométrie 3D de la scène, seule l'utilisation des méthodes d'enregistrement d'image 2D est possible. Les méthodes d'enregistrement d'image 2D ne permettent pas de détecter de manière satisfaisante les modifications au sein d'une scène 3D, car l'aspect d'un objet change en fonction de l'angle de vue, et les objets figurant à différentes profondeur sont déplacés différemment dans deux vues de la même scène. Une fois les régions modifiées identifiées, le système montre à l'utilisateur la scène d'origine et la scène modifiée.

Les utilisations de cette technologie sont multiples et concernent la plupart de nos applications de sécurité et de surveillance, du suivi et de la surveillance de véhicules au comptage et au suivi de personnes pour diverses raisons (par exemple, pour identifier les zones d'un magasin visitées par certains clients et détecter des comportements suspicieux ou dangereux sur une scène externe ou interne). Des exemples encore plus complexes incluent l'analyse d'enregistrements de scènes similaires mais à différents moments, parfois à des années d'écart, afin de déterminer une activité spécifique, par exemple une détérioration, des fuites ou des failles de sécurité.

En savoir plus surhpe.com/software/idol

© Copyright 2016 Hewlett Packard Enterprise Development LP. Les informations présentées dans ce document peuvent être modifiées à tout moment et sans préavis. Les seules garanties applicables aux produits et aux services Hewlett Packard Enterprise sont stipulées dans les déclarations de garantie explicites qui accompagnent ces produits ou ces services. Aucune information contenue dans le présent document ne saurait être considérée comme constituant une garantie complémentaire. Hewlett Packard Enterprise décline toute responsabilité en cas d’erreurs ou d’omissions de nature technique ou rédactionnelle dans le présent document.

4AA6-4478FRE, juillet 2016

Livre blanc d'entreprise