Comment notre laboratoire teste les suites de sécurité 2017

Notre analyse des suites de sécurité se focalise sur quatre domaines fondamentaux : les performances, l’efficacité défensive, le contrôle parental et la richesse fonctionnelle.

Chaque suite est évaluée individuellement durant deux semaines au moment de sa sortie. Puis, sur les tests de défense « en ligne » et les tests de « réactivité », toutes les suites sont soumises simultanément aux mêmes menaces durant une période de six semaines. Tous les tests sont réalisés sous Windows 10 Anniversary Update. Pour tous les tests, les suites ont un plein accès à leur infrastructure Cloud.

1 - Les Performances :

Les utilisateurs veulent bien dépenser pour être mieux protégés, mais à une condition : que les outils de sécurité ne viennent pas ralentir leur machine et affecter leur expérience utilisateur.

Le produit est installé sur des PC sous Windows 10 Anniversary Update. Toute une batterie de tests de performance est alors réalisée à travers des benchmarks classiques (notamment ceux de Passmark et de Futuremark) et à travers des scripts spécialement créés pour évaluer l’impact sur les opérations quotidiennes (transferts de fichiers, copies de fichiers, renommages de fichiers, effacements de fichiers, chargement de documents Office, exécution de macros Office, chargement de pages Web en Intranet, chargement de pages Web des sites français les plus fréquentés, etc.). En tout, près de 50 tests de performance sont réalisés (et répétés plusieurs fois). On mesure ensuite les écarts sur chaque test avec les performances mesurées avec un Windows 10 et ses protections intégrées.
Pour chaque test, une note de 0 à 5 est attribuée qui définit à quel point l’impact est sensible ou non pour l’utilisateur. Car ce qui compte au final, c’est la perception que l’utilisateur a et non les données brutes. Perdre 1 ou deux secondes sur la copie de milliers de fichiers, c’est un faible prix à payer pour sa sécurité. En revanche perdre 2 à 3 images par seconde sur un jeu vidéo peut ruiner l’expérience ludique. Perdre 2 à 3 secondes sur l’affichage de la moindre page Web peut rapidement se révéler exaspérant. De même les utilisateurs sont très sensibles sur le temps de démarrage de leur PC. Or les suites peuvent parfois l’impacter de plusieurs dizaines de secondes, même si les SSD tendent à aujourd’hui masquer la disparité des temps de boot.

Le temps de démarrage est aussi évalué au travers d’une dizaine de mesures qui permettent d’évaluer le temps que le PC met à afficher l’écran de Login, le Bureau, le chargement de tous les modules systèmes, le chargement de tous les modules annexes, ainsi que le temps à partir duquel la protection est effectivement opérationnelle (affichage de son interface et démarrage des interactions), le temps à partir duquel le bureau retrouve sa réactivité aux ordres de la souris et le temps après lequel le PC retrouve une activité « Idle » (la plupart des protections effectuant des vérifications et des mises à jour juste après le démarrage).

Les différents résultats de tous ces tests sont regroupés en catégories :

  • Internet : comporte des mesures de téléchargements de fichiers, de navigations WEB depuis un serveur interne (Intranet), de navigations WEB sur les pages des principaux sites français (les pages sélectionnées sont celles qui n’évoluent pas au cours des semaines et ne comportent pas de bandeaux publicitaires, les tests étant réalisés en pleine nuit à l’heure où le trafic Internet est le plus faible);
  • Bureautique : tests de travaux automatisés sous Office, manipulations de fichiers, compressions/décompressions, installations/désinstallation de programmes;
  • Jeux : impact sur le Frame Rate des jeux en plein écran et des jeux en fenêtre Windows;
  • Multimédia : impact sur les retouches, les chargements, les stream vidéos, les encodages;
  • Démarrage : impact sur le démarrage perceptible et imperceptible du PC, impact sur le retour en « Idle » après démarrage;
  • L’empreinte mémoire : Ce critère est redevenu fondamental depuis l’arrivée des tablettes Windows, mais aussi des mini-PC (NUC, PC au format Clé HDMI) qui disposent presque toujours de moins de 2 Go de RAM et même de plus en plus fréquemment d’à peine 1 Go de RAM. La consommation mémoire est un sujet plus compliqué qu’il n’y paraît de prime abord, parce que Windows pagine sa mémoire sur disque. Or, une occupation importante engendre une activité de plus en plus intense sur la mémoire paginée au point que le système finit par ralentir passant plus de temps à jongler entre les pages sur disques qu’à exécuter les opérations. Nous évaluons donc la consommation mémoire sur un PC équipé de 2 Go de mémoire. La note s’appuie sur plusieurs mesures : occupation mémoire 10 minutes après le boot, occupation mémoire avant scan, occupation mémoire après scan, optimisation réelle de la mémoire, mesure Peak Working Set (post Scan) de l’ensemble des modules de la solution.

2 - L'efficacité défensive :

L’efficacité défensive est, avec l’impact sur les performances, l’autre critère fondamental surveillé par les utilisateurs. Mais l’efficacité est un concept qui dépend directement de la façon sont menés les tests : comment sont récoltés les échantillons des menaces, quels scénarios sont joués pour soumettre la menace à la suite, quels sont les critères retenus pour définir la dangerosité d’une menace, quels sont les réglages adoptés sur la suite, quels sont les points de vue adoptés pour déterminer si la suite a réussi ou non un test donné (les suites pouvant parfois demander à l’utilisateur de décider d’une remédiation), etc.

Une focalisation sur les menaces qui touchent les Français

Le Labo de Toms Guide a pris le parti de se focaliser sur les menaces susceptibles d’atteindre les utilisateurs francophones. Cela affecte la façon dont nous détectons les menaces, les sources de menaces que nous explorons, et les menaces Web que nous sélectionnons. Typiquement, les sites de phishing qui visent spécifiquement les Français sont utilisés en priorité dans nos tests anti-phishings. De même certains malwares et URL dangereuses sont récoltés à partir de recherches réalisées sur des artistes, acteurs et personnages publics français, sur des mots-clés d’actualité français, sur les traductions françaises des titres de films ou de séries, etc.
Les échantillons que nous récupérons le sont par nos propres honeypots et nos propres crawlers. Nous utilisons également des sources publiques ou privées internationales. Il est important de noter que nous utilisons plusieurs sources et que nous les utilisons à égalité de poids : ceci évite de favoriser les solutions de sécurité également abonnées à une de ces sources au détriment de celles qui ne le sont pas (si nous n’utilisions qu’une seule source, certaines suites pourraient afficher un 100% de réussite parce que l’éditeur l’utilise aussi, et d’autres des scores bien moindres parce qu’ils ne l’utilisent pas, ça ne nous donnerait pour autant aucune information pertinente sur l’efficacité réelle des suites).
« Focalisation » ne signifie pas pour autant que nous délaissons les menaces internationales. Nos tests intègrent également des menaces véhiculées par des sites en langue anglaise, espagnole, portugaise et allemande. Simplement, ces menaces ne constituent pas la majorité de nos échantillons (là où certains Labos utilisent eux des menaces à 99% asiatiques ou russes parce qu’elles sont les plus nombreuses).
Cette focalisation sur les menaces francophones est une grande spécificité de nos tests et ce qui nous différencie des autres Labos et permet d’apporter un point de vue complémentaire aux tests que ces derniers réalisent.

Une attention sur la proactivité
L’autre grande spécification de notre méthodologie d’évaluation de l’efficacité défensive est le soin que nous apportons à l’évaluation des boucliers proactifs. Nous sous-entendons par « proactif », toutes les méthodes utilisées par la suite pour détecter comme malveillant un malware ou site qui ne figure pas dans sa liste de signatures.
C’est important parce que, au final, les machines se retrouvent infectées, et les identifiants se retrouvent volés parce que les éditeurs n’avaient pas encore connaissance de la menace. Sur Internet tout va très vite : les sites de Phishing ne survivent que quelques heures, de nouveaux binaires échappant aux signatures sont compilés toutes les secondes.
Nous réalisons une centaine de mesures de proactivité différentes. Certaines permettent directement d’évaluer l’efficacité de la suite, mais d’autres sont plutôt destinées à nous aider à mieux comprendre comment fonctionnent les différents boucliers, quelles sont les forces et les faiblesses de la suite dans son approche d’une défense en profondeur, jusqu’à quel point la suite est susceptible de contrer des menaces nouvelles.
Ces tests comprennent l’exécution de certains des malwares non éradiqués par le scan, le téléchargement et l’exécution des malwares véhiculés par les pages Web que les défenses à la source n’ont pas bloquées, le téléchargement et la reconnaissance de malwares connus, mais que l’on a « crypté » (à l’aide des Crypters couramment employés par les cybercriminels), la résistance aux exploits, ainsi que l’exécution de programmes de notre cru (ce ne sont pas des simulations, mais de vrais programmes réalisant de vraies opérations malveillantes) qui permettent de mieux cerner les comportements de chaque suite et leur technicité. Nous avons également introduit la notion de proactivité dans l’antiphishing en hébergeant sur des URL inconnues des réplicats de sites de Phishings de PayPal, La Poste et des banques françaises afin de déterminer le niveau d’intelligence de la suite pour contrecarrer l’hameçonnage.
En 2017 nous avons enrichi notre bestiaire maison de nouveaux tests ciblant particulièrement les défenses anti-ransomwares. Certains de ces tests émulent exactement le comportement de CryptoLocker ou Locky, d’autres utilisent des techniques différentes pour aboutir à un résultat similaire : prendre en otage vos fichiers.

Scénarios d’infection

Que ce soit pour les tests Web comme pour les tests proactifs, la méthodologie scénaristique simule un comportement type : d’abord la menace est accédée depuis un navigateur Web (on regarde si le navigateur en bloque l’accès), puis si la page n’a pas été bloquée la menace est téléchargée (soit par un clic, soit via du Drive-By selon les sites et les menaces), puis si elle n’a pas été bloquée précédemment elle est exécutée. Puis on évalue l’état de la machine après exécution.
Durant tous nos tests, les suites de sécurité ont accès à leur Cloud. Une mise à jour manuelle est forcée avant chaque session de tests. Si une suite - à une étape ou une autre – affiche une alerte demandant une décision à l’utilisateur, c’est toujours la réponse proposée par défaut qui est sélectionnée (quand il n’y a pas de réponse par défaut, c’est l’autorisation qui est sélectionnée).

Les 4 axes d’analyse défensive
Nous évaluons l’efficacité défensive selon 4 axes.

  • La réactivité
    On le sait, les utilisateurs ne sont que très rarement infectés par des menaces connues depuis plusieurs jours ou semaines. Ce sont les codes qui ont quelques heures d’existence ou qui sont uniques qui infectent réellement les machines. Les lecteurs attentifs auront remarqué que nous n’avons jusqu’ici jamais parlé de « Scan ». À nos yeux, les « Scans » ne constituent pas une protection défensive en tant que telle. D'ailleurs, certaines protections obtiennent de piètres résultats aux scans et pourtant la probabilité que leurs utilisateurs soient infectés est presque nulle parce que leurs boucliers de blocage à la source et de blocage comportemental sont très efficaces.
    Le test de nettoyage et réactivité évalue la capacité de la suite à nettoyer les disques de menaces latentes apparues dans la journée grâce à son scan et à son antimalware temps réel. Il met en œuvre à la fois les bases de signature, les capacités heuristiques et les bases de réputation des différentes suites. Le résultat s’appuie sur des mesures réalisées quotidiennement pendant plusieurs jours avec une base virale enrichie quotidiennement de nouveaux malwares. Chaque jour, on regarde la quantité de malwares détectés et éradiqués. On compare les résultats à J+1, J+2, etc.
  • L’efficacité proactive
    Comme largement expliquée précédemment, cette centaine de mesures permet d’évaluer le comportement des Suites face aux menaces que sa base de signature virale ou sa base d’URL dangereuses ne connaît pas. La note est formée des résultats obtenus à l’exécution des menaces non reconnues, à la résistance face aux exploits, à la capacité à protéger le fichier Hosts, certaines clés de la Registry, les téléchargements masqués, les zones « autoruns », et l’on prend en compte l’existence de fonctionnalités antikeyloggers, sandboxing, protection des navigations bancaires. La note prend également en compte les fonctionnalités d’analyse de vulnérabilités et de mises à jour automatisées des logiciels vulnérables et périmés. Nous considérons effectivement ses fonctionnalités comme des défenses proactives essentielles aujourd’hui.
  • Les défenses Web
    Chaque suite de sécurité est soumise à plus de deux cents menaces « Live », actives sur le Web et venant tout juste d’être repérées par le laboratoire. Ces menaces sont un mélange de pages Web infectées, de pages menant au téléchargement de malwares, de pages comportant des codes JavaScript d’exploits et Drive-By, des « Watering Holes », des URL directes de malwares. La suite marque un point pour chaque site bloqué ou chaque action de téléchargement bloquée. Ces tests analysent aussi le comportement des défenses sur des pages de Phishing actives sur le Web au moment des tests ainsi que sur des pages non référencées conçues pour analyser leur détection proactive du Phishing. Les tests se focalisent à 80% sur les pages de phishings en français.
  • Le contrôle parental
    Notre test de contrôle parental expose l’enfant (dans un scénario où l’enfant a entre 6 et 9 ans) à 250 URL inadaptées à son âge. 100 URL véhiculant de la pornographie sont évaluées, mais aussi des dizaines d’URL d’enrôlement islamiste, d’armes, de fabrication de bombes, de forums de rencontres, de téléchargement illégal, de jeux potentiellement dangereux, etc. À ces purs tests d’URL s’ajoutent des tests de recherches de sites et d’images à partir de mots clés inadaptés ou de mots d’argots français. D’autres tests vérifient si la suite force les moteurs de recherche à conserver leur mode « Safe » de filtration des contenus.
    Ces tests mesurent donc la capacité de la suite à contrôler les recherches des enfants, à réagir à l’utilisation de mots clés (langue française et argot), à empêcher la visite d’une centaine de sites dangereux (sites révisionnistes, sites de jeux d’argent, sites de téléchargement illégal, sites de drogues et d’armement, sites de rencontres, etc.) et d’une centaine de sites pornographiques.

3 - La richesse fonctionnelle :

Il nous apparaît logique qu’au-delà de l’efficacité défensive, le rapport qualité/prix puisse aussi être évalué sur la convivialité, la capacité de la suite à défendre tout le foyer (et non seulement le PC) et la quantité d’outils et de fonctions proposées.

La richesse fonctionnelle est évaluée selon 6 axes et plus de 160 critères :

  • Convivialité & paramétrages :
    La note sur 20 traduit la simplicité d’utilisation de la suite, la clarté et le nombre de mesures la simplicité d’utilisation et d’accès, l’accès simplifié aux journaux d’évènements, le côté graphique et convivial des rapports, l’existence d’une interface UWP, le support des Jumplists de Windows 10, la compatibilité avec l’affichage portrait et les gestuelles tactiles des tablettes Windows, la fonction de réparation en 1 clic, la possibilité de créer en un clic une clé et un CD de réparation, la présence d’un scan de réputation, etc.
  • Richesse des boucliers :
    La note sur 20 traduit uniquement la richesse des boucliers et non leur efficacité. Elle comptabilise tous les boucliers présents ainsi que l’existence de boucliers pour filtrer les recherches, sauvegarder les fichiers ou le système, gérer les mises à jour de la configuration, la présence de sandboxing automatique ou manuel, les fonctionnalités HIPS, les fonctionnalités de diagnostics, de réparation du PC et des navigateurs, de verrouillage du PC, etc.
  • La protection de la Vie Privée :
    La note sur 20 traduit la variété et le nombre de fonctionnalités dédiées à la Vie Privée. Elle prend en compte la présence d’un navigateur d’achats en ligne, d’un scan des paramètres des réseaux sociaux, de boucliers Web contre les collectes, de blocages de tracking et de bannières, d’effacements des traces et des activités, de présence d’un VPN (pour la navigation, pour le téléchargement), de protection des périphériques, clés, Webcam, d’outils de chiffrements et de destructions de fichiers, de gestionnaires de mots de passe, d’intégration à la biométrie et Windows Hello, etc.
  • La protection du Foyer :
    La note sur 20 traduit la capacité à défendre le foyer au-delà du PC. Elle prend en compte la présence de console centralisée, la protection des mobiles, la surveillance du réseau, la protection des Macs, l’extension du contrôle parental à tous les PC, les fonctions d’antivol PC et mobiles, etc.
  • Les fonctions d’Optimisations :
    La note sur 20 évalue la richesse des fonctions d’optimisation affichées par la suite de sécurité. Là encore, seule la richesse fonctionnelle est ici évaluée, par l’efficacité. Les fonctions qui se contentent juste d’appeler les options Windows sont ignorées. Les fonctions de nettoyage, défragmentation, détection des doublons, détections des programmes, analyse des performances, optimisations de la base de Registres, sont ici prises en compte.
  • La richesse du Contrôle Parental :
    La note sur 20 est totalement indépendante de la note d’efficacité du Contrôle Parental. Elle prend uniquement en compte la richesse de la solution et son ergonomie. Elle évalue la souplesse des réglages, la possibilité de contrôler les règles à distance, la qualité des rapports, les possibilités de surveillance, la disponibilité sur mobile, l’ensemble des contrôles (navigations, contacts, programmes, usages, etc.), la qualité des rapports ainsi que la capacité de la suite à favoriser le dialogue entre parents et enfants.
Posez une question dans la catégorie Dossiers du forum
Cette page n'accepte plus de commentaires
Soyez le premier à commenter
    Votre commentaire