banner

Nouvelles

May 22, 2023

Roll veut recréer des plans de chariot et plus encore en utilisant l'IA générative

Ceux qui connaissent Faizan Buzdar, qui était jusqu'à récemment le vice-président de la gestion des produits chez Box, associent probablement l'entrepreneur à Convo, la plate-forme d'espace de travail numérique populaire parmi les salles de rédaction (y compris celle-ci). Mais Buzdar, qui a une formation en génie électronique, est depuis longtemps fasciné par la vidéo et les effets visuels.

« Passionné de vidéo et de photographie depuis toujours, je faisais des vidéos tout seul depuis des années, mais j'ai remarqué que la production vidéo était largement restée manuelle avec peu d'innovation au cours des dernières décennies, en particulier pour les tâches chronophages comme le montage vidéo », m'a dit Buzdar par e-mail. . "Entre-temps, j'ai remarqué que la technologie des appareils photo et des capteurs de l'iPhone s'était améliorée par étapes au cours des dernières années, devenant presque équivalente en qualité d'image à celle des reflex numériques."

Alors qu'il était chez Box, Buzdar dit qu'il a décidé d'essayer de combiner la vidéo - un support de plus en plus populaire - avec des innovations en IA et en apprentissage automatique pour tenter d'améliorer l'expérience de capture et de montage vidéo. Buzdar a fait appel à Adeel Abbas, un ingénieur vidéo qui, lorsqu'il était chez Twitter, a contribué à l'infrastructure alimentant les fonctionnalités de diffusion en direct du site, aux côtés de Saj Khan, Fahad Yaqub et de sa collègue exécutive de Box, Michelle Oh, pour explorer les frontières de la production vidéo accélérée par la technologie.

Le roulis est le résultat. Une nouvelle application pour iOS, elle propose des bokeh, des prises de vue multicam, des animations graphiques et, peut-être le plus intrigant pour moi, des curseurs, des chariots et des jibs "simulés par l'IA".

Crédits image :Rouleau

"Notre mission est de perturber le monde de la production vidéo de haute qualité et de devenir la nouvelle norme pour la création de contenu vidéo", a poursuivi Buzdar. "La création d'une excellente vidéo est un investissement initial massif dans l'équipement, l'équipement, l'apprentissage de l'utilisation de cet équipement, les logiciels de montage - nous nous débarrassons de tout cela."

Roll, qui s'adresse au marché des "prosommateurs" (pensez aux influenceurs et aux podcasteurs, mais aussi aux entreprises créant leur propre matériel marketing), se compose de deux produits : l'application Roll pour iPhone et l'application Web. L'application iPhone capture et enregistre la vidéo, puis la télécharge automatiquement sur le cloud de Roll pour le stockage et le traitement. L'application Web, quant à elle, est l'endroit où les images peuvent être prévisualisées, consultées, partagées, téléchargées et éditées par un ou une équipe de créateurs de contenu.

Bien sûr, les applications vidéo sont à la pelle. Alors, qu'est-ce qui rend Roll différent? D'une part, l'application vise des cas d'utilisation que la plupart des applications de caméra ne sont pas, dit Buzdar – comme des interviews vidéo à distance, des podcasts vidéo et des témoignages de clients. Alors que Zoom, Microsoft Teams et Google Meet répondent dans une certaine mesure au besoin, Buzdar affirme qu'ils ne sont pas conçus pour la production vidéo "de haute qualité".

Roll utilise également un certain nombre d'effets en temps réel pour offrir (apparemment) une plus grande gamme de choix de post-production que la plupart des applications de capture vidéo. Par exemple, Roll enregistre dans la norme HEVC, offrant environ deux fois le débit binaire et une qualité d'image supérieure pour la même taille de fichier. Et Roll peut enregistrer et traiter jusqu'à deux prises de vue de caméra - une prise de vue grand angle et une prise de vue rapprochée - à la fois, permettant aux utilisateurs de créer des vidéos avec des perspectives "multi-caméras" efficaces.

L'interface d'édition Roll.Crédits image :Rouleau

Certes, le multicam n'est pas particulièrement unique - le rouleau est loin d'être la première application à l'offrir. Mais Buzdar dit que là où réside la magie, c'est dans le post-traitement. Roll exploite l'IA générative pour recréer des pièces dans l'espace 3D afin que les créateurs de contenu puissent déplacer une caméra virtuelle semblable à un jeu vidéo, simulant des mouvements comme un panoramique d'un côté à l'autre avec un chariot ou une grue.

"Aujourd'hui, l'IA générative est trop souvent associée à la création de faux contenus à partir de rien", a déclaré Buzdar. "Ce n'est pas notre philosophie. Nous ne générons pas de faux pixels, personnes ou scènes. Nous utilisons l'IA générative uniquement comme un outil de productivité. Nous voulons démocratiser l'accès à une production vidéo de meilleure qualité."

Buzdar a expliqué que l'IA de Roll a été formée pour comprendre la profondeur 3D d'une scène, en utilisant des données pour mesurer la profondeur et les formes indépendamment de la personne assise dans la pièce. Roll a commencé à former ses algorithmes avec des ensembles de données open source couramment utilisés pour l'analyse comparative dans le milieu universitaire, mais a ensuite enregistré en interne plus de 22 000 appels vidéo, créant ainsi sa propre base de données riche.

Les résultats ne sont pas à moitié mauvais - du moins dans les images de démonstration que Buzdar m'a montrées. Certains des panoramiques générés par l'IA de Roll abordent la vallée étrange, résultat d'une déformation non naturelle sur les objets en arrière-plan lorsque la caméra virtuelle pivote. Mais dans les scènes courtes, les effets de l'IA sont suffisamment convaincants – et un ajout accrocheur à ce qui serait autrement une interview à distance ennuyeuse.

"Nous avons fait pas mal de recherches à ce sujet, et nous n'avons vu personne utiliser l'IA de la même manière que nous, en associant les données des capteurs de l'iPhone à de grands modèles d'IA dans le cloud", a déclaré Buzdar. "Notre technologie fournit des capacités fondamentales pour simuler tous les effets visuels qu'un utilisateur souhaiterait."

Enregistrement d'appel avec Roll.Crédits image :Rouleau

Tous les effets visuels semblent un peu exagérés. Mais Roll a d'autres astuces algorithmiques plus réalistes dans sa manche. Au fur et à mesure que Roll enregistre la vidéo, il rassemble des métadonnées à utiliser ultérieurement dans le processus de production vidéo, y compris les conditions d'enregistrement et d'éclairage, la distance entre la caméra et le sujet et la position du visage et du corps du sujet. Les métadonnées sont utilisées pour ajuster automatiquement les caméras et les capteurs du téléphone, ainsi que pour fournir des commentaires et des instructions pour la composition et l'éclairage.

Semblable à quelques autres éditeurs de vidéo mobiles « compatibles avec l'IA » sur le marché, Roll exploite également les métadonnées pour créer une bobine multicaméra entièrement réalisée dans son nuage d'édition - aucune édition manuelle requise. (Les utilisateurs peuvent toujours modifier et ajuster les angles de caméra ou ajouter des mouvements de caméra et des effets visuels s'ils le souhaitent.) Dans un avenir proche, Roll pourra publier directement sur les réseaux sociaux, y compris TikTok, YouTube et Instagram - dans les deux résolution appropriée et rapport d'aspect.

"Aujourd'hui, la production vidéo nécessite de nombreux composants matériels et logiciels pour être entièrement réalisée", a déclaré Buzdar. "A chaque étape, lorsque le fichier vidéo et audio passe d'un logiciel à un autre, il perd son contexte et devient simplement un fichier "stupide" qui circule. Nous avons fondamentalement reconstruit l'ensemble de la "pile" de production vidéo à partir de zéro. au-delà des frontières logicielles traditionnelles, nous avons appliqué l'IA pour offrir une expérience transformatrice de la capture à la publication qui intègre verticalement et automatise l'ensemble du flux de travail de production vidéo à distance."

Alors, comment Roll compte-t-il gagner de l'argent? Jusqu'à présent, la société a levé des fonds auprès de sources de capital-risque traditionnelles – Buzdar ne dirait pas où, exactement. Mais en termes de génération de revenus, Buzdar espère que Roll finira par se développer pour répondre aux besoins des entreprises, en particulier leurs équipes internes de marketing et de vidéo, qui paieront une sorte de redevance pour les services de Roll.

"La production vidéo est mûre pour être perturbée par le cloud", a déclaré Buzdar. "Des attributs tels que des fichiers volumineux, un traitement complexe et la nécessité d'éditions et de cycles de révision multi-personnes en font le candidat idéal pour bénéficier des avantages exponentiels du cloud computing, tels que le stockage évolutif, l'IA, le calcul, le partage et la collaboration en temps réel."

Il y a sûrement du vrai là-dedans. Quant à savoir si Roll sera le perturbateur, le temps nous le dira.

Crédits image : Crédits image : Crédits image :
PARTAGER