Witam, wiem że to dość sporo ale dostaliśmy taki tekst do przetłumaczenia na parę lekcji, daje tyle punktów ile mogę za to i satysfakcjonuje mnie nawet połowa przetłumaczonego tekstu, co jakiś czas sam będę kawałek tłumaczył więc poinformuje który kawałek będę już miał.
History
Human facial expression has been the subject of scientific investigation for more than one hundred years. Study of facial movements and expressions started from a biological point of view. After some older investigations, for example by John Bulwer in late 1640s, Charles Darwin’s book The Expression of the Emotions in Men and Animals can be considered a major departure for modern research in behaviouralbiology.
More recently, one of the most important attempts to describe facial activities (movements) was Facial Action Coding System (FACS). Introduced by Ekman and Friesen in 1978, FACS defines 46 basic facial Action Units (AUs). A major group of these Action Units represent primitive movements of facial muscles in actions such as raising brows, winking, and talking. Eight AUs are for rigid three-dimensional head movements, i.e. turning and tilting left and right and going up, down, forward and backward. FACS has been successfully used for describing desired movements of synthetic faces and also in tracking facial activities.
Computer based facial expression modelling and animation is not a new endeavour. The earliest work with computer based facial representation was done in the early 1970s. The first three-dimensional facial animation was created by Parke in 1972. In 1973, Gillenson developed an interactive system to assemble and edit line drawn facial images. And in 1974, Parke developed a parameterized three-dimensional facial model.
The early 1980s saw the development of the first physically based muscle-controlled face model by Platt and the development of techniques for facial caricatures by Brennan. In 1985, the short animated film ``Tony de Peltrie’’ was a landmark for facial animation. In it for the first time computer facial expression and speech animation were a fundamental part of telling the story.
The late 1980s saw the development of a new muscle-based model by Waters, the development of an abstract muscle action model by Magnenat-Thalmann and colleagues, and approaches to automatic speech synchronization by Lewis and by Hill. The 1990s have seen increasing activity in the development of facial animation techniques and the use of computer facial animation as a key storytelling component as illustrated in animated films such as Toy Story, Antz, Shrek, and Monsters, Inc, and computer games such as Sims. Casper (1995) is a milestone in this period, being the first movie with a lead actor produced exclusively using digital facial animation (Toy Story was released later the same year).
4. Motion capture uses cameras placed around a subject. The subject is generally fitted either with reflectors (passive motion capture) or sources (active motion capture) that precisely determine the subject's position in space. The data recorded by the cameras is then digitized and converted into a three-dimensional computer model of the subject. Until recently, the size of the detectors/sources used by motion capture systems made the technology inappropriate for facial capture. However, miniaturization and other advancements have made motion capture a viable tool for computer facial animation. Facial motion capture was used extensively in Polar Express by Imageworks where hundreds of motion points were captured. This film was very accomplished and while it attempted to recreate realism, it was criticised for having fallen in the 'uncanny valley', the realm where animation realism is sufficient for human recognition but fails to convey the emotional message. The main difficulties of motion capture are the quality of the data which may include vibration as well as the retargeting of the geometry of the points. A recent technology developed at the Applied Geometry Group and Computer Vision Laboratory at ETH Zurich achieves real-time performance without the use of any markers using a high speed structured light scanner. The system is based on a robust offline face tracking stage which trains the system with different facial expressions. The matched sequences are used to build a person-specific linear face model that is subsequently used for online face tracking and expression transfer.
5. Deformation Solver Face Robot.
Speech Animation
Speech is usually treated in a different way to the animation of facial expressions, this is because simple keyframe-based approaches to animation typically provide a poor approximation to real speech dynamics. Often visemes are used to represent the key poses in observed speech (i.e. the position of the lips, jaw and tongue when producing a particular phoneme), however there is a great deal of variation in the realisation of visemes during the production of natural speech. The source of this variation is termed coarticulation which is the influence of surrounding visemes upon the current viseme (i.e. the effect of context). To account for coarticulation current systems either explicitly take into account context when blending viseme keyframes or use longer units such as diphone, triphone, syllable or even word and sentence-length units.
One of the most common approaches to speech animation is the use of dominance functions introduced by Cohen and Massaro. Each dominance function represents the influence over time that a viseme has on a speech utterance. Typically the influence will be greatest at the center of the viseme and will degrade with distance from the viseme center. Dominance functions are blended together to generate a speech trajectory in much the same way that spline basis functions are blended together to generate a curve. The shape of each dominance function will be different according to both which viseme it represents and what aspect of the face is being controlled (e.g. lip width, jaw rotation etc.). This approach to computer-generated speech animation can be seen in the Baldi talking head.
Other models of speech use basis units which include context (e.g. diphones, triphones etc.) instead of visemes. As the basis units already incorporate the variation of each viseme according to context and to some degree the dynamics of each viseme, no model of coarticulation is required. Speech is simply generated by selecting appropriate units from a database and blending the units together. This is similar to concatenative techniques in audio speech synthesis. The disadvantage to these models is that a large amount of captured data is required to produce natural results, and whilst longer units produce more natural results the size of database required expands with the average length of each unit.
Finally, some models directly generate speech animations from audio. These systems typically use hidden markov models or neural nets to transform audio parameters into a stream of control parameters for a facial model. The advantage of this method is the capability of voice context handling, the natural rhythm, tempo, emotional and dynamics handling without complex approximation algorithms. The training database is not needed to be labeled since there are no phonemes or visemes needed; the only needed data is the voice and the animation parameters. An example of this approach is the Johnnie Talker system.
" Life is not a problem to be solved but a reality to be experienced! "
© Copyright 2013 - 2024 KUDO.TIPS - All rights reserved.
Menschliche Mimik ist Gegenstand der wissenschaftlichen Forschung seit über hundert Jahren. Studium der Mimik und Ausdrücke begann aus biologischer Sicht. Nach mehreren früheren Studien, zum Beispiel, kann John Bulwer in späten 1640, ein Buch von Charles Darwins Ausdruck von Emotionen bei Mensch und Tier als Ausgangspunkt für die moderne Forschung Biologie des Verhaltens angesehen werden.
Kürzlich einer der wichtigsten Versuche, Gesichts-Aktivität (change) beschreiben Facial Action Coding wurde das System (FACS). Eingeführt von Ekman und Friesen im Jahre 1978 definiert FACS 46 Basis-Facial Action Units (AUS). Die Hauptgruppe dieser Units of Action sind die primitiven Bewegungen der Gesichtsmuskeln in Aktionen wie die Erhöhung Augenbrauen, Blinzeln, und reden. Acht AUS sind starre dreidimensionale Bewegungen des Kopfes, Drehen und Kippen nach links und rechts und geht nach oben, unten, hin und her.FACS wurde erfolgreich eingesetzt, um den gewünschten synthetischen Mimik, sowie Face Tracking-Aktivitäten zu beschreiben.
Computer-Modellierung und Animation von Gesichtsausdrücken ist kein neues Unterfangen.Die früheste Arbeit mit einem Computer-Darstellung des Gesichts wurde im Jahr 1970 gemacht. Die ersten dreidimensionalen Gesichts-Animation wurde von Parke im Jahr 1972 gegründet. Im Jahr 1973 entwarf Gillenson interaktives System zu montieren und bearbeiten Sie die Zeile Gesichtsbilder. Und im Jahr 1974 hat Parke eine parametrisierte dreidimensionales Modell des Gesichtes entwickelt.
1980 wird die Entwicklung des ersten physikalischen Modell der Gesichtsmuskeln Steuerung und Entwicklung von Techniken Platt Gesichts-Karikaturen von Brennan. Im Jahr 1985 Peltrie''was der animierte Kurzfilm `` Tony de ein Meilenstein für die Gesichts-Animation. In ihm zum ersten Mal Computer Mimik und Sprache Animation waren ein wesentlicher Bestandteil des Geschichtenerzählens.
Ende 1980 ist die Entwicklung von neuen Muskel-Modell auf Waters, der Entwicklung der abstrakten Modell Magnenat-Thalmann Muskel und Kollegen, und den Ansatz für die automatische Synchronisation von Sprache und Lewis Hill basiert. Im Jahr 1990 sah eine erhöhte Aktivität in der Entwicklung der Gesichts-Animation und den Einsatz von Computer-Gesichts-Animation als ein zentrales Element der Handlung, wie in der Animation, wie Toy Story, Antz, Shrek und Monster, Inc., und Computer-Spiele wie Die Sims gezeigt. Casper (1995) ist ein Meilenstein in dieser Zeit, als der erste Film in der Hauptrolle produziert ausschließlich mit digitalen Gesichts-Animation (Toy Story wurde noch im selben Jahr veröffentlicht).
4. Motion Capture mit Kameras rund um das Thema gestellt. Das Thema ist im Allgemeinen gut mit Reflektoren (passive motion capture) oder Quellen (aktiv Motion Capture) ausgestattet, dass die genaue Definition der die Position des Objekts im Raum. Die Daten von Digitalkameras aufgenommen und anschließend in dreidimensionale Computermodell des Objekts verändert. Bis vor kurzem hat die Größe der Detektoren / Quellen, die von Motion-Capture-Systemen verwendet die Technologie nicht geeignet für die Gesichts zu erfassen. Allerdings machte der Miniaturisierung und anderen Errungenschaften der Motion-Capture brauchbares Werkzeug für Computer Facial Animation. Facial Motion-Capture wurde weithin in Polar Express by Imageworks eingesetzt, wo Hunderte von Punkten gefangen Bewegung gebracht wurden. Dieser Film war eine sehr gelungene und bei dem Versuch, Realismus neu zu erstellen, hat mit in "das Tal der erstaunlichen" gefallen kritisiert worden, ist ein Bereich, wo die Animation ist realistisch genug, um den Menschen zu erkennen, aber es versäumt, die emotionale Botschaft zu vermitteln. Die größte Schwierigkeit ist die Qualität der Motion-Capture-Daten, die Vibrationen und die Umleitung der Geometrie Punkte umfassen kann. Die neueste Technologie in der Applied Arbeitsgruppe Geometrie und Computer Vision Laboratory an der ETH Zürich entwickelt erzielt Echtzeit, ohne Verwendung von Markern bei hoher Geschwindigkeit mit strukturiertem Licht Scanner. Das System basiert auf einer Bühne in Gesichtserkennung, die das System Züge mit verschiedenen Gesichtsausdrücken angemeldet Basis. Passende Sequenzen werden verwendet, um spezifische lineares Modell für das Gesicht, die dann für die Face-Tracking-Websites und die Übertragung der Ausdruck wird verwendet, zu bauen.
5. Face Robot Solver Verformungen.
Speech Zeichentrick
Speech ist in der Regel in unterschiedlicher Weise auf Mimik animieren behandelt werden, ist es, da ein einfacher Ansatz, um die Bilder der Animation in der Regel eine schlechte Näherung liefern, um die wirkliche Dynamik der Sprache. Viseme werden oft verwendet, um eine beobachtete Rede Schlüssel (dh die Position der Lippen, Kiefer und Zunge in der Produktion von einzelnen Phoneme) vertreten, aber es gibt viele Unterschiede in der Umsetzung der Viseme bei der Herstellung von natürlicher Sprache. Die Quelle für diese Variabilität wird festgestellt, dass die Wirkung von Koartikulation Viseme rund um das aktuelle viseme (dh die Auswirkungen der Kontext). Zur Berücksichtigung Koartikulation vorhandenen Systeme berücksichtigen ausdrücklich Rahmen der Vermischung viseme Keyframes oder mehr Einheiten wie Diphon, Triphon, Silbe oder sogar Wort und Satz Längen der einzelnen.
Eines der am weitesten verbreitete Methode der Animation ist es, Rede Dominanz Funktionen von Cohen und Massaro eingeführt wurde. Jede Funktion stellt die Wirkung der beherrschenden Stellung auf Zeit viseme ist der Ausspruch des Sprechens. Typischerweise werden die Auswirkungen am größten sein, in der Mitte viseme und nimmt mit der Entfernung vom Zentrum viseme. Domination Features zusammen, um eine Bahn der Rede in der gleichen Weise, dass die Spline-Basisfunktionen zusammen, um die Kurve zu schaffen gemischt erstellen gemischt. Die Form der einzelnen Dominanz Funktion wird anders sein je nachdem, was sowohl viseme stellt und welcher Aspekt des Gesichts kontrolliert wird (z. B. die Breite der Lippen-, Kiefer Rotation, etc.). Dieser Ansatz zur computer-generierte Sprache Animation kann im Gespräch Baldi Kopf zu sehen.
Andere Modelle verwenden sprachlicher Einheiten, die vom Kontext (zB Diphone, Triphone, etc.) statt Viseme beruhen. Da die Geräte bereits die Änderungen für jede viseme, je nach Kontext und in gewissem Maße auch die Dynamik der einzelnen viseme ist Koartikulation Modell nicht erforderlich. Die Sprache ist einfach durch die Auswahl geeigneter Geräte aus der Datenbank und Anschluss von Geräten zusammen erzeugt. Dies ist vergleichbar mit konkatenativen Sprachsynthese Techniken, um Audio. Der Nachteil dieser Modelle ist, dass eine große Menge der erfassten Daten an natürliche Ergebnisse begangen wird, während das Gerät bereits produziert mehr natürliche Ergebnisse der erforderlichen Größe der Datenbank erweitert, um die durchschnittliche Länge der einzelnen Einheiten.
Schließlich erzeugen einige Modelle Animationen direkt von Audio-Sprache. Diese Systeme verwenden in der Regel Hidden-Markov-Modelle oder neuronale Netze, um den Audio-Stream-Parameter der Regelparameter der das Gesicht des Modells zu konvertieren. Der Vorteil dieser Methode ist, dass man den Kontext von Sprache, Rhythmus, Tempo, emotional und Fahrdynamik, ohne die Angleichung der komplexen Algorithmen zu verwenden.Database Schulung ist nicht erforderlich, um zu kennzeichnen, denn es gibt keine Notwendigkeit, von Phonemen oder Viseme, nur die notwendigen Daten-, Sprach-und Animations-Parameter. Ein Beispiel für diesen Ansatz ist die systematische m. Johnnie Talker
Człowieka wyraz twarzy był przedmiotem badań naukowych od ponad stu lat. Studium ruchy twarzy i wyrażeń zaczął z biologicznego punktu widzenia. Po kilku starszych badań, na przykład John Bulwer pod koniec 1640, książki Karola Darwina Ekspresja Emocje w ludzi i zwierząt może być uznany za odejście do nowoczesnych badań w behaviouralbiology.
Niedawno jeden z najważniejszych prób opisania twarzy działalności (zmiany) był Facial Action Coding System (FACS). Wprowadzony przez Ekman i Friesen w 1978 roku, FACS określa 46 podstawowych twarzy Jednostki Działań (AUS). Główną grupę tych Jednostki Działań stanowią prymitywne ruchy mięśni twarzy w działania takie jak podnoszenie brwi, mrugając, i mówić. Osiem AUS są do sztywnych trójwymiarowych ruchów głowy, zamieniając to i przechylanie w lewo iw prawo i idzie w górę, w dół, w przód iw tył. FACS jest z powodzeniem stosowany do opisu pożądanych ruchów syntetycznych twarzy, a także w śledzenia twarzy działalności.
Komputerowe modelowanie twarzy wyrazu i animacja nie jest nowym przedsięwzięciem. Najwcześniejsze pracy z komputerem na reprezentację twarzy dokonano w roku 1970. Pierwsze trójwymiarowe animacje twarzy został stworzony przez Parke w 1972 roku. W 1973 roku, Gillenson opracowane interaktywny system do montażu i edycji linią twarzy obrazów. A w 1974 roku, Parke opracowała sparametryzowane trójwymiarowego modelu twarzy.
1980 roku to rozwój pierwszego fizyczności mięśni sterowany model twarzy Platt i rozwoju technik twarzy karykatury przez Brennan. W 1985 roku, krótkometrażowy film animowany `` Tony de Peltrie''był przełomowy dla animacji twarzy. W to dla pierwszego komputera czasu wyraz twarzy i animacji mowy były podstawową częścią opowiadania historii.
Koniec 1980 to rozwój nowych mięśni oparte na modelu Waters, rozwój abstrakcyjnego modelu działania mięśni Magnenat-Thalmann i kolegów, i podejście do automatycznej synchronizacji mowy Lewis i Hill. W 1990 widziałem zwiększenia aktywności w rozwoju technik animacji twarzy i wykorzystania komputera animacji twarzy jako kluczowy element fabuły, jak pokazano w animacji, takich jak Toy Story, Mrówka Z, Shrek, and Monsters, Inc, i gier komputerowych, takich jak Sims . Casper (1995) jest kamieniem milowym w tym okresie, jako pierwszy film w głównej roli produkowane wyłącznie przy użyciu cyfrowych animacji twarzy (Toy Story został wydany później tego samego roku).
4. Motion capture używa kamer umieszczonych wokół tematu. Temat jest na ogół wyposażone zarówno z reflektorami (pasywne motion capture) lub źródeł (aktywne motion capture), że precyzyjne określenie pozycji obiektu w przestrzeni. Dane rejestrowane przez kamery cyfrowe i jest następnie przekształcony w trójwymiarowy komputerowy model obiektu. Do niedawna wielkości detektorów / źródeł wykorzystywanych przez systemy przechwytywania ruchu wykonane w technologii nieodpowiednie dla twarzy przechwytywania. Jednak, miniaturyzacji i innych osiągnięć dokonały ruchu uchwycić sprawnym narzędziem do komputera animacji twarzy. Motion capture twarzy był szeroko stosowany w Polar Express Imageworks gdzie setki punktów ruchu wzięto do niewoli. Ten film był bardzo osiągnięte i choć próbował odtworzyć realizmem, był krytykowany za popadłych w "dolinie niesamowite", to sfera, gdzie realizm animacji jest wystarczająca do uznania człowieka, ale nie udaje się przekazać emocji wiadomość. Główne trudności z motion capture jest jakość danych, które mogą obejmować wibracji, a także przekierowywanie geometrii punktów. Najnowsze technologie opracowane w Applied Grupa Geometria i Laboratorium Computer Vision w ETH Zurich osiąga czasie rzeczywistym, bez użycia jakichkolwiek markerów przy dużej prędkości strukturę skanera światła. System opiera się na solidnej etapie zalogowany śledzenia twarzy, które pociągi systemu z różnych wyrazów twarzy. Dopasowane sekwencje są wykorzystywane do budowania specyficznych dla osób liniowego modelu twarzy, który jest następnie wykorzystywany do internetowych śledzenia twarzy i transfer wypowiedzi.
5. Solver Robot deformacji twarzy.
Animacja mowy
Mowa jest zwykle traktowane w różny sposób do animacji mimiki, to dlatego, że proste klatki podejścia do animacji zwykle dostarczają biednych zbliżenia do realnej dynamiki mowy. Często visemes są używane do reprezentowania klucz stanowi obserwowanych mowy (tzn. sytuacja warg, szczęki i języka przy produkcji poszczególnych fonemów), jednak istnieje wiele różnic w realizacji visemes podczas produkcji naturalnej mowy. Źródłem tej zmienności jest określany coarticulation który jest wpływ visemes okolic na aktualnych viseme (tj. wpływu kontekstu). Aby uwzględnić coarticulation obecnych systemów jawnie brać pod uwagę kontekst mieszania viseme klatki kluczowe lub użyć już jednostek, takich jak diphone, triphone, sylaby lub nawet słowo i zdanie długości jednostki.
Jedną z najczęstszych metod animacji mowy jest korzystanie z funkcji dominacji wprowadzone przez Cohena i Massaro. Każda funkcja dominacji reprezentuje wpływ na czas, viseme ma na wypowiedź mowy. Zazwyczaj wpływ będzie największy w centrum viseme i obniża się wraz z odległością od centrum viseme. Dominacja funkcji są mieszane razem do tworzenia trajektorii mowy w taki sam sposób, że funkcje spline podstawie są mieszane razem do tworzenia krzywej. Kształt każdej funkcji dominacji będą różne w zależności zarówno co viseme reprezentuje i jaki aspekt twarz jest kontrolowany (np. szerokość wargi, szczęki rotacji itp.). Takie podejście do generowanych komputerowo animacji mowy może być postrzegane w rozmowy Baldi głowy.
Inne modele jednostek używać mowy podstawie których należą kontekście (np. diphones, triphones itp.) zamiast visemes. Jako jednostki podstawie już zawierać zmiany każdego viseme w zależności od kontekstu i do pewnego stopnia dynamiki każdej viseme, nie model coarticulation jest wymagane. Mowa jest po prostu generowane przez dobór odpowiednich jednostek z bazy danych i łączenie jednostek razem. Jest to podobne do concatenative technik audio syntezy mowy. Wadą tych modeli jest to, że duża ilość przechwyconych danych jest zobowiązana do naturalnych wynikach, a jednocześnie już jednostki wytwarzają więcej naturalnych wynikach rozmiar bazy danych wymagana rozszerzona o średniej długości każdej jednostki.
Wreszcie, niektóre modele bezpośrednio generować animacje mowy z audio. Systemy te zazwyczaj korzystają z ukrytych modeli Markowa lub sieci neuronowych do przekształcenia parametry audio w strumień parametry kontroli twarzy modelu. Zaletą tej metody jest możliwość obsługi kontekście głosu, naturalny rytm, tempo, emocjonalne i dynamiki jazdy bez skomplikowanych algorytmów zbliżenia. Baza danych szkolenie nie jest wymagane, aby były etykietowane, ponieważ nie ma fonemów lub visemes potrzebne; tylko potrzebne dane, głos i parametrów animacji. Przykładem takiego podejścia jest Johnnie Talker.