Il y a 80 ans, Orson Welles projetait son premier film. Depuis sa sortie en 1941 aux États-Unis, Citizen Kane est régulièrement cité comme l’une des œuvres les plus importantes de l’histoire du cinéma, au point que son statut en vienne à faire oublier les raisons de cette célébration. On fête d’ailleurs son anniversaire avec une ressortie 4K, dont vous pouvez lire le test par notre rédacteur Guillaume Creis. Dans cet article, nous verrons en quoi Citizen Kane annonce les futures recherches du cinéma numérique par son utilisation de la grande profondeur de champ (deep focus).
Nous n’allons pas ici exposer comment Citizen Kane fut transformé en monument du cinéma, encore moins les circonstances de sa création. Tout ceci est déjà largement documenté et le film est analysé sous toutes ses coutures depuis 80 ans. Nous proposons plutôt de montrer ce que le film peut encore nous enseigner, notamment aux (apprenti-e-s) cinéastes, en termes de mise en scène et de mise en cadre. Nous reviendrons plus loin sur cette distinction, que nous devons au cinéaste Soviétique S.M. Eisenstein dans ses Leçons de mise en scène recueillies par son élève Vladimir Nijny (1937)1. Elle a le mérite d’aider à mieux penser la mise en scène cinématographique, en prenant garde à cette expression « mise en scène » qui, comme sa référence à la scène l’indique, nous vient du théâtre. Homme de théâtre (puis de radio), Orson Welles semble avoir compris, peut-être mieux que quiconque avant lui, les possibles du cinéma.
Une réalisation d’Orson Welles toujours inspirante
Citizen Kane est le premier film d’Orson Welles2, acteur et metteur en scène qui signa avec RKO un contrat lui laissant carte blanche après une série de pièces de théâtre et de radio (War of the World) aux impacts retentissants. Il s’agit du récit kaléidoscopique de la vie d’un enfant gâté privé d’enfance (Charles Foster Kane), devenu un magnat de l’industrie puis des médias avant de finir ses jours en reclus au milieu d’un Xanadu rempli de merveilles digne du dernier plan des Aventuriers de l’Arche perdue (clin d’œil Steven Spielberg). Biographie imaginaire inspirée de William Randolf Hearst, Citizen Kane demeure une expérience de cinéma impressionnante. C’est comme un tourbillon de fragments que le montage virtuose de Robert Wise (futur réalisateur de West Side Story) et Orson Welles agence.
Le film transforme le scénario d’Herman J. Mankiewicz en un mouvement perpétuel : actions et déplacements au sein des plans, jeux de lumières dynamiques qui font évoluer la perception de l’espace, mouvements de caméra virevoltants, flux du montage qui fait basculer d’un espace-temps à un autre, on comprend pourquoi Citizen Kane est une source d’inspiration pour les cinéastes. On y décèle même, le temps d’un plan à la grue pénétrant depuis le toit à l’intérieur d’un restaurant par un petit vasistas, les futures expériences du cinéma numérique de Robert Zemeckis (le miroir de Contact) et de David Fincher (la poubelle de Fight Club) aux mouvements de caméra impossibles.
Le plan-séquence avec courte focale, signature de Citizen Kane
L’un des procédés cinématographiques les plus connus de Citizen Kane est le plan-séquence en profondeur de champ (deep focus), réalisé avec une courte focale (grand angle) qui dynamise l’espace en le distordant. Un procédé très discuté dans les années quarante et cinquante, en particulier par André Bazin dans les Cahiers du Cinéma (dont les textes furent repris dans Qu’est-ce que le cinéma ?). Depuis, le numérique est parvenu à réaliser ce rêve d’une profondeur de champ totale, quitte à inspirer un Vidocq (Pitof, 2000)… Mais ne blâmons pas Orson Welles pour cela. Il ne fut d’ailleurs pas l’inventeur du deep focus, mais celui qui le développa pour en faire un élément majeur de sa mise en scène.
Si nous allons nous y intéresser dans cet article, c’est parce qu’il est facile d’être époustouflé par la palette cinématographique de Citizen Kane au point de céder à l’attraction du spectaculaire : on peut croire qu’il suffit de multiplier les mouvements de caméra et les effets de montage pour faire de la mise en scène.
Mais la base du cinéma, c’est avant tout placer sa caméra avant de songer aux procédés possibles et imaginables. D’où le choix d’Eisenstein de proposer à ses étudiants de filmer en un seul plan le meurtre de l’usurière par Raskolnikov dans le roman de Dostoïevski Crime et Châtiment. Ce qu’il propose, nous allons le voir, c’est d’utiliser la profondeur de champ et la verticalité de l’image pour mettre en scène cinématographiquement une scène, pour penser ensemble mise en scène (en espace) et mise en cadre (en image). Or, c’est cela que permet le plan-séquence en profondeur de champs si commenté par André Bazin.
La courte focale (le plus souvent en contre-plongée) permet à Orson Welles d’embrasser un espace à la fois large et profond (ou du moins d’en donner l’impression), d’une grande netteté en avant-plan comme à l’arrière-plan. Cela permet au cinéaste de mettre en scène une action dans la totalité de cet espace et de montrer un personnage en plan rapproché (premier plan) et en pied (arrière-plan) sans avoir à déplacer sa caméra. Telle qu’Orson Welles et le directeur de la photographie Gregg Toland l’utilisent, la courte permet ainsi d’utiliser l’espace pour « découper » les éléments d’une séquence. Et lorsqu’il est impossible de filmer correctement les différents niveaux de profondeur avec la netteté suffisante, les créateurs n’hésitent pas à les filmer séparément sur la même pellicule. C’est le cas du plan montrant la découverte de Susan inconsciente après sa tentative de suicide, dont les trois niveaux de profondeur de champ nécessitèrent un triple matte.
C’est comme exemple des possibilités du plan-séquence en profondeur de champ qu’André Bazin prend pour exemple la découverte par Kane de Susan inconsciente : à l’arrière-plan, la porte de la chambre où Kane et son domestique surgissent ; en avant-plan, un flacon et un verre vide avec une cuillère à l’intérieur ; entre ces deux points de l’espace, l’épouse allongée, inconsciente. Grâce à cette mise en scène pensée pour l’angle de vue de la caméra, le milliardaire découvre le corps et comprends que son épouse a tenté de se suicider en un seul plan. Les actions sont données à voir dans leur déroulement même, sans montage venant isoler les différents éléments de la mise en scène (flacon et verre, femme inconsciente, mari et domestique qui entrent dans la pièce) : c’est le regard du spectateur à l’intérieur du plan qui découvre les relations de cause à effet qui unissent ces éléments.
André Bazin considère ainsi que le spectateur se trouve face à un tel plan comme en perception réelle. Un plan qui, pourtant, est un effet visuel comme nous l’avons vu. Mais qu’importe, car la lecture du plan implique une certaine ambiguïté, réaliste, qu’un guidage par le montage tend au contraire à éliminer :
« En analysant la réalité, le montage supposait, par sa nature même, l’unité de sens de l’événement dramatique. […] En somme, le montage s’oppose essentiellement et par nature à l’expression de l’ambiguïté.3 »
André Bazin poursuit en écrivant que l’utilisation du plan-séquence en profondeur de champ « implique par conséquent une attitude mentale plus active et même une contribution positive du spectateur à la mise en scène. 4 »
Mise en scène et mise en cadre, du théâtre au cinéma
L’absence de fragmentation par le montage conduit le spectateur à être attentif à ce qui se passe dans l’ensemble du cadre, à tous les niveaux de profondeur du champ. C’est finalement semblable à l’activité du public du théâtre soumis à ce qui peut être qualifié de champ total.
Mais si le cinéaste ne tient pas compte de la verticalité de l’écran, alors le plan-séquence en profondeur de champ risque de se réduire à ce que l’on qualifie souvent péjorativement de « théâtre filmé » (ou « en conserve »). Quelle est donc cette verticalité de l’écran ? Il nous faut ici écouter les leçons du professeur Eisenstein. Le cinéaste du Cuirassé Potemkine(1925) établit la distinction suivante, qui permet de mieux définir ce que doit être la mise en scène de cinéma :
« Alors qu’on désignera par mise en scène la mise en place, spatiale et temporelle, des éléments sur la scène de théâtre, nous appellerons mise en cadre la mise en place de ces éléments dans le plan.5 »
Pour Eisenstein, la mise en scène est la création de l’événement lui-même dans son déroulement (par les déplacements et le jeu des acteurs, les décors et accessoires jouant) tandis que la mise en cadre est l’organisation de ces éléments par la composition de l’image, l’angle de prise de vue, et par extension, le montage. La mise en scène se caractérise ainsi par son horizontalité, la scène, et la mise en cadre par sa verticalité, l’écran. Cette distinction est intéressante, car ce que l’on nomme habituellement « mise en scène » au cinéma confond ce qui relève de la scène, au sens de lieu où se déroule l’action (portée par les acteurs, leur texte et leurs déplacements) et ce qui constitue l’image. Cela conduit à négliger le fait qu’au cinéma, l’espace jouant peut être disposé sur toute la surface de l’écran, verticalement et horizontalement, dans la mesure où le point de vue sur l’action n’est pas fixé par l’emplacement du spectateur mais par celui de la caméra, qui peut prendre n’importe quelle position dans l’espace. Les cinéastes, selon Eisenstein, doivent impérativement tenir compte de cette « verticalité de l’écran » qui distingue le cinéma du théâtre. En effet, l’espace théâtral est majoritairement horizontal, c’est celui de la scène sur laquelle chaque spectateur a un point de vue unique, défini par le lieu dans la salle où il se trouve (nous excluons ici les mises en scènes théâtrales modernes qui proposent au public différents points de vue).
D’une manière semblable au théâtre, le plan-séquence en profondeur de champ utilisé par Orson Welles semble s’apparenter à un « champ total » devant lequel le public est livré. Jean Mitry écrit à ce propos :
« En fait, dans le “champ total”, je dois tout voir, portant cependant mon attention, à tout instant, sur ce qui est le plus important. Mais cela, c’est l’action même qui me le dira, car c’est elle qui dirige mon regard.6 »
En effet, ajoute-t-il, le spectateur « est toujours attiré dans une image par l’endroit qui atteint plastiquement ou dramatiquement le maximum de signification.7 » C’est pourquoi il ne faut pas croire (André Bazin n’a jamais eu cette naïveté) que le plan-séquence en profondeur de champ n’implique pas de choix forts de la part du cinéaste, car au contraire, la composition du plan et les mouvements vont orienter le regard vers tel ou tel zone de l’image. C’est parce qu’il est metteur en scène de théâtre qu’Orson Welles est particulièrement conscient que la mise en scène d’une scène doit se faire en fonction du regard du spectateur, mais qu’il appartient à la mise en scène de ménager des surprises, en faisant par exemple apparaître tel personnage au fond ou en bordure de la scène, mais aussi de moduler les effets dramatiques par les départements des personnages.
Comment jouer avec la verticalité de l’écran
Orson Welles, parce qu’il est metteur en scène de théâtre, sait par ailleurs que l’espace de jeu du théâtre n’est horizontal que pour le public situé exactement face à la scène, ce qui n’est presque jamais le cas. Le plus souvent, le public regarde la pièce en plongée, plus ou moins accusée selon sa position dans le théâtre, ce qui fait que la mise en scène de théâtre implique aussi de prendre en compte une certaine verticalité. Jouer avec cette verticalité est plus délicate au théâtre qu’au cinéma, car les points de vue des spectatrices et des spectateurs diffèrent. Le cinéaste a quant à lui toute liberté pour placer son public dans l’axe désiré pour mieux jouer avec sa perception.
L’un des plus brillants exemples d’une semblable utilisation de la profondeur dans Citizen Kane est le plan montrant le critique musical Leland retournant dans les bureaux vides de la rédaction et découvrant son patron et ami Charles Foster Kane poursuivant l’écriture de la chronique d’opéra qu’il n’a pas osé poursuivre. Le secrétaire Bernstein est en arrière-plan, le milliardaire au premier face à la caméra, tandis que Leland entre-deux s’avance hésitant, ignorant les émotions que la caméra saisit sur le visage de son patron. Le dialogue se tient dans cet entre-deux entre arrière et premier plan, entre le critique mobile et le patron et son secrétaire fixes, offrant au public une lecture de gestes, de mots et d’émotions que seul le cinéma peut offrir.
Comme dans l’exemple donné par Eisenstein à ses étudiants, c’est véritablement la mise en scène qui crée les isolements et les grossissements qui dont d’habitude l’objet de plusieurs plans organisés par le montage. Primordial est l’angle par lequel la scène est vue par la caméra, qui doit permettre le plus de possibilités de mise en scène, c’est-à-dire de déplacement des acteurs, et le plus de possibilités de composition de l’image. Dans le cas d’une vue en plongée, comme dans l’exemple proposé par Eisenstein, l’action de la scène peut s’étager sur toute la hauteur de l’écran si mise en scène (horizontale) et mise en cadre (verticale) sont en symbiose. On comprend rapidement que le tournage avec plusieurs caméras simultanément permet peu de penser la mise en scène pour la mise en cadre, à moins de penser la scène selon chaque angle.
Le deep focus, technique au service de l’histoire
Une lecture trop rapide des écrits enthousiastes d’André Bazin a ainsi pu faire considérer que le plan-séquence en courte focale (deep focus) comme un procédé soi-disant objectif pour représenter la réalité au cinéma, alors qu’il ne présente pas plus de garantie d’objectivité que les autres. D’ailleurs, comme nous l’avons vu, Orson Welles n’a hésité pas à avoir recours à des effets visuels pour obtenir ce qui était impossible à la caméra. Comme le rappelle Jean Mitry à propos de la tentative de suicide de Susan, Orson Welles n’a privilégié ce procédé qu’en certains moments du film, avec pour objectif une perception particulière des scènes concernées :
« Nous sommes introduits dans l’événement tragique sans partager sentimentalement la responsabilité des personnages. […] C’est bien cette situation que Welles ici attend de nous : il réclame notre attention et non notre passion. Le mode d’expression donc est excellent, mais chaque fois qu’il aura besoin de notre passion il agira autrement.8 »
Il faut voir la séquence de signature du contrat qui arrache le jeune Charles du foyer de ses parents pour se rendre compte de l’effet que peut produire le deep focus : en arrière-plan, tout au fond, joue Charles dans la neige. Minuscule dans le cadre, il s’approche de la vitre qui le sépare de l’intérieur du chalet où sa mère signe les documents qui vont le conduire à être éduqué par une banque. Puis la mère se lève et se dirige vers la fenêtre. Le contraste est alors intense avec les gros-plans suivants, qui renforcent l’opposition entre Charles à l’extérieur et les adultes à l’intérieur. Toute la force émotionnelle de Citizen Kane est condensée dans ces quelques plans.
Citizen Kane, ou l’éloge des possibles en cinéma
On peut penser que le summum de la mise en scène cinématographique est le plan-séquence en profondeur de champ enseigné par Eisenstein et pratiqué par Orson Welles. Mais on peut simplement mieux penser à sa mise en scène en songeant grâce à ces exemples, en se rappelant qu’elle doit être en symbiose avec la mise en cadre. Ou encore, utiliser ce procédé pour penser chaque plan d’une séquence découpée classiquement. En vérité, Citizen Kane et son usage de la courte focale ne doivent pas être perçus d’une manière dogmatique, mais comme la révélation de quelques uns des possibles offerts aux cinéastes. Et c’est parce qu’Orson Welles a travaillé quelques uns des plus grands fantasmes des cinéastes (la profondeur de champ infinie, la caméra aux mouvements impossibles…) que son premier film reste un monument vivant, d’autant plus actuel qu’il annonce le futur cinéma numérique.
Des procédés cinématographiques (montages rapides, superpositions d’images, fondus-enchaînés…), Citizen Kane n’en manque pas. Tout en aboutissant à un ensemble d’une cohérence sans doute parfaite, Welles n’hésite pas à créer des conflits entre les séquences en ayant recours à des esthétiques différentes et aux procédés les plus divers : le plan-séquence en courte focale, mais aussi un montage elliptique lors des scènes de petits déjeuner entre Kane et sa femme, de fausses actualités (News On the March) pour exposer la vie du milliardaire, une caméra sur grue ou rails de travelling qui se faufile dans les cimaises d’un opéra ou à travers la vitre d’une fenêtre fermée, des fondus-enchaînés avec obscurcissement progressifs des décors qui inspireront Michel Gondry pour Eternal Sunshine of the Spotless Mind… Et encore, nous mettons de côté (comme trop souvent) la bande sonore du film, aussi riche, complexe et innovante que l’image, qui bénéficie des expérimentations de Welles à la radio. Chaque visionnage de Citizen Kane est un enseignement passionnant, toujours actuel plus de 80 ans après sa projection sur les écrans.
Cette analyse reprend des recherches de l’auteur effectuées lorsqu’il était étudiant en cinéma à l’Université Lumière-Lyon 2, dans le cadre d’une série de cours donnés en 2008 par Philippe Roger, maître de conférence et contributeur régulier de la revue Études. L’auteur de cet article en profite pour remercier les enseignants d’études cinématographiques et audiovisuelles qui l’ont formé.