Методы представления и экранизации трехмерных данных с помощью изображений: часть 1

Синтез изображений несуществующих (синтезированных) объектов повсеместно используется в науке (научная визуализация), кинематографе (создание спецэффектов), развлечениях (трехмерные игры). Также эти методы находят свое применение в промышленности (моделирование прототипов автомобилей и т.п.), сфере услуг. Разработано огромное число алгоритмов синтеза, позволяющих получить на экране изображение синтезированной трехмерной модели.

В англоязычной литературе для процесса синтеза изображения по (трехмерной) модели принято использование термина rendering, которое можно перевести как передача, изложение, воспроизведение, что, вообще говоря, недостаточно точно отражает смысл действия. В данной статье будет использоваться аналогичное по смыслу слово экранизация. Действительно, можно говорить, например, об экранизации романа Л.Н. Толстого <Война и мир>. В данном случае текст романа выступает в качестве модели, а работа сценариста, режиссера, оператора, актеров — алгоритмом синтеза. Автор считает, что использование слова с аналогичной семантикой из другой области знаний более оправдано, чем использование кальки с английского (рендеринг). Термин <экранизация> также используется Ю.М. Баяковским на лекциях по компьютерной графике, которые читаются на 2-м курсе факультета ВМиК МГУ.

Экранизация моделей объектов реального мира может использоваться в тех же областях, где используются синтезированные модели, но не только. Значительный научный и практический интерес вызывают такие задачи как создание виртуальных реальностей, соответствующих реальным прототипам, визуализация различных памятников архитектуры, археологии. Задачи в таких областях требуют в основном интерактивной экранизации.

Однако экранизация реальных моделей тесно связана со сложнейшей задачей их получения. Экранизации синтезированных трехмерных моделей предшествует кропотливая многодневная работа дизайнеров, которые создают модели и материалы на основе спецификаций и чертежей. Для объектов реального мира процессы моделирования гораздо сложнее, и чрезмерная трудоемкость их создания приводит нас к необходимости разработки специальных моделей и новых методов экранизации для таких объектов.

Традиционный процесс трехмерной экранизации

В наше время можно говорить об устоявшемся, традиционном процессе трехмерной экранизации, который в большинстве случаев используется для синтеза изображений как синтетических, так и реальных объектов. Мы рассмотрим его в с точки зрения проблемы экранизации моделей реальных объектов.

Типичный процесс экранизации основан на представлении поверхности трехмерных объектов наборами полигонов (обычно — треугольников). С поверхностью ассоциируется модель материала, которая (совместно с геометрией) используется в процессе тонирования и последующего вычисления цвета соответствующей точки на экране.

Рассмотрим различные варианты создания цифровой модели реального объекта: моделирование вручную, использование алгоритмов машинного зрения и применение специальных дальномерных устройств.

Ручное моделирование

Для моделирования объекта реального мира (пусть это будет, например, яблоко) сначала, как правило, делаются фотографии этого предмета, которые затем передаются дизайнеру для оцифровки. Оцифровка производится вручную, причем является весьма трудоемким процессом. На основе фотографий дизайнер сначала создает грубое приближение яблока (например, сферу), а затем начинает <подгонять> форму к требуемой, добавляет детали и так далее. Затем создается текстура и подбираются нужные параметры модели материала поверхности. В зависимости от сложности объекта этот процесс может занимать несколько часов или дней. А ведь задачи, например, виртуальной реальности, могут требовать оцифровки архитектуры целых городов!

Тем не менее, процесс моделирования вручную используется наиболее часто в силу своей общности и относительной технологической простоты. Кроме того, часто <похожесть> объекта на оригинал не является критически необходимой.

К его недостаткам можно отнести чрезмерную трудоемкость, неточность воспроизведения деталей объектов (представьте себе, как сложно вруч-ную смоделировать дерево со всей листвой, например). Методы ручного моделирования плохо применимы для объектов с большим количеством деталей и сложных масштабных объектов (например, городов).

Автоматическое моделирование с помощью методов машинного зрения

Наука о компьютерном зрении (computer vision, CV) занимается поиском и анализом высокоуровневой информации в изображениях. В частности, компьютерное зрение занимается реконструкцией формы и свойств объектов по набору фотографий [1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11]. Это значит, что, имея набор фотографий реального объекта, можно реконструировать его форму и представить ее в виде набора треугольников. Причем алгоритмы, используемые при этом, могут напоминать принципы работы человеческого глаза и мозга. Текстуру и свойства материала объекта также можно получать из набора фотографий объекта.

Однако задача автоматической реконструкции столь сложна, что даже самые современные алгоритмы компьютерного зрения работают только в ограниченных случаях и достаточно неустойчиво [12, 13, 14]. Но даже в этих случаях восстановление точной формы в настоящее время практически невозможно. Получение текстур и особенно материалов объектов — еще более сложная задача.

Тем не менее, методы компьютерного зрения находят свое применение на практике, особенно в совокупности с ручным моделированием.

Далее мы увидим, что, несмотря на несовершенство, алгоритмы компьютерного зрения — ключ к решению проблемы экранизации реальных объектов и методы экранизации на основе изображений являются своего рода компенсацией недостатков компьютерного зрения [15].

Использование аппаратных дальномерных устройств

Решение проблемы реконструкции формы объектов реального мира может быть возложено и на аппаратные возможности. Например, в последнее время становятся доступны специальные дальномерные сканирующие устройства (сканеры) [16], которые можно использовать для получения точной формы объектов. Такие устройства могут быть использованы для оцифровки небольших объектов.

К их недостаткам можно отнести высокую цену (десятки тысяч долларов), невозможность использования в домашних условиях и узкую сферу применения (как правило, могут быть только оцифрованы объекты относительно небольшого размера). Также, аппаратура не может восстановить свойства материала и для этого приходится прибегать к ручному моделированию или методам компьютерного зрения.

[blockintext]


Рисунок 1. Дальномерные сканеры. Фото с сайта http://www.cyberware.com.
[/blockintext]

Проблема сложности

Общей проблемой традиционного полигонального подхода является сложность. Сложность бывает двух видов: геометрическая сложность и оптическая сложность. Геометрическая сложность — это сложность формы модели. Оптическая сложность — это сложность моделей материалов и светопропускающих сред.

Исторически полигональная графика появилась как решение для маломощных машин, поскольку аппроксимация поверхностей плоскими полигонами позволяла уменьшить число примитивов для расчета проекции на экран, расчета освещения и т.д.

Для достаточно корректной аппроксимации объектов реального мира могут потребоваться сотни тысяч полигонов, к тому же понятие о <достаточности> меняется с ростом скоростей персональных ПК. Современные пользователи хотят все больше и больше деталей, дальнейшего улучшения качества экранизации объектов, которое в традиционном процессе напрямую зависит от качества аппроксимации. А это предполагает дальнейший рост количества вершин полигонов в моделях, причем темпы этого роста обгоняют (и, скорее всего, всегда будут обгонять) темпы роста скорости процессоров и графических ускорителей. Следовательно, для интерактивной экранизации реальных моделей просто не хватит мощности современных компьютеров. А требование интерактивности — ключевое для многих задач, таких как виртуальные миры или игровые приложения.

С этой точки зрения, ключевым недостатком полигональной графики является зависимость скорости экранизации от количества полигонов в модели.

С другой стороны, задача быстрого и корректного расчета освещения по известным свойствам поверхностей и сред является непосильной даже для современного оборудования. Поэтому в интерактивной визуализации используются в основном локальные модели освещения, совмещенные с заранее рассчитанными картами освещенности. Достичь фотореализма крайне сложно, потому что даже самые точные модели тонирования не дают (на многих сценах) достаточного сходства с фотографиями.

Рисунок 2. Графический процесс от получения данных по генерации финального изображения (пунктиром выделены алгоритмические этапы)
Рисунок 2. Графический процесс от получения данных по генерации финального изображения (пунктиром выделены алгоритмические этапы)

Представления и экранизация на основе изображений

Существующими средствами проблема экранизации реальных объектов решается недостаточно эффективно. Моделирование вручную чрезмерно трудоемко и по этой причине не позволяет реконструировать модели высокой сложности и/или детально похожие на оригинал. Компьютерное зрение работает на ограниченных наборах входных данных и не обладает достаточной устойчивостью. Аппаратные решения слишком дороги и позволяют находить форму только небольших объектов. Кроме этого, геометрическая сложность полигональных моделей объектов реального мира негативно влияет на скорость экранизации, а оптическая сложность делает невозможным создание фотореалистичных изображений в реальном времени.

Основными проблемами применения традиционного процесса моделирования к экранизации реальных объектов являются:

  • сложность моделирования;
  • высокая геометрическая сложность моделей, затрудняющая интерактивную визуализацию;
  • высокая оптическая сложность моделей реального мира, не позволяющая достичь фотореалистичного качества синтезируемых изображений.

Экранизация на основе изображений (Image-Based Rendering, IBR) [17] — это подход к задаче экранизации, основанный на стремлении решить трудности традиционного подхода путем прямого использования исходных данных (изображений) в процессе экранизации. С экранизацией на основе изображени тесно связано моделирование на основе изображений (Image-Based Modeling, IBM) , задачей которого является создание моделей, пригодных для использования методами синтеза на основе изображений.

Можно заметить, что в процессе экранизации реальных объектов изображения находятся и на входе, и на выходе алгоритма. Таким образом, естественно было бы использовать входные данные напрямую, без ручного или автоматического построения полигональной модели.

Рассмотрим, как подход на основе изображений влияет на решение проблем традиционного процесса:

  • моделирование становится автоматическим или полуавтоматическим процессом, в основном заключающимся в обработке наборов фотографий или видеопоследовательностей;
  • сложность моделей (и, следовательно, скорость визуализации) в подходе, основанном на изображениях, зависит от разрешения и числа исходных изображений и практически не зависит от геометрической сложности объектов;
  • поскольку новые изображения синтезируются из фотографий, вместо построения сложных моделей поверхности используется информация об освещенности, <посчитанная> самой природой.

В экранизации и моделировании на основе изображений задача (и основная сложность) состоит в том, чтобы построить эффективные структуры данных и методы синтеза новых изображений, которые позволили бы в интерактивном режиме синтезировать изображения, получаемые с <виртуальных> камер, т.е. соответствующим не существующим во входном наборе изображениям.

Поясним предыдущее утверждение. На входе алгоритма синтеза находится набор фотографий (возможно, видеопоследовательность), сделанная фото- или видеокамерой за некоторый промежуток времени. Как вариант, рассматриваются карты дальности, получаемые со сканеров. Их также можно рассматривать как <фотографии> геометрии объекта, где в каждом пикселе хранится расстояние от сканирующего элемента до поверхности модели.

Задана мировая система координат. Положение (внешняя калибровка) камеры для каждой входной фотографии может быть как известна, так и неизвестна. Параметры камер (внутренняя калибровка) тоже могут быть известны или неизвестны, в зависимости от конкретной задачи.

Целью алгоритма является (интерактивный) синтез изображения, которое увидел бы наблюдатель, фотографируя ту же сцену с заданного положения, отличного от положений исходных камер. В идеальном варианте, необходимо реализовать (интерактивную) навигацию пользователя по трехмерной сцене, заданной данными, содержащимися в исходных фотографиях.

Важно понимать, что экранизация по изображениям не отрицает использования геометрии (часто это просто необходимо или повышает качество синтеза), однако геометрия играет вторичную роль, поскольку обычно также реконструируется из изображений. Ввиду того, что реконструкция геометрии из изображений является очень сложной и нерешенной на практике задачей, большинство методов, основанных на изображениях, рассчитаны на работу либо с грубой или не точной геометрией, либо без геометрии вовсе.

Эта задача является очень сложной и в общем случае неразрешимой (в частности, потому, что входные фотографии имеют конечное разрешение и многие детали или даже части сцены оттуда получить невозможно). Чтобы оценить сложность задачи, представьте себе, что у вас есть набор фотографий комнаты и требуется по ним нарисовать ее точный план, причем не только в проекции, но и в трехмерном пространстве. Решить задачу чрезвычайно сложно, даже если требуется грубый рисунок <от руки>.

Литература

  1. Borshukov, G.D., New Algorithms for Modeling and Rendering Architecture from Photographs. M.S Thesis, EECS department, UC Berkeley, 1997.
  2. Cipolla, R., D. Robertson, and E. Boyer. Photobuilder — 3D Models of Architectural Scenes from Uncalibrated Images. Procedings of Conference on Multimedia Computing and Systems. p. 25-31. 1999.
  3. Horry, Y., K.I. Anjyo, and K. Arai. Tour into the picture: Using a spidery mesh interface to make animation from a single image. Procedings of SIGGRAPH 1997. p. 225-232. 1997.
  4. K.Turkowski., Y.X.a., Creating image-basedVRusing a self-calibrating fish-eye lens. In IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR’97), pages 237-243, San Juan, Puerto Rico, June 1997.
  5. Kang, S.B. and R. Szeliski. 3-D scene data recovery using omnidirectional multibaseline stereo. Procedings of EEE Computer Society Conference on Computer Vision and Pattern Recognition p. 364-370. 1996. San Francisco, California.
  6. Kutulakos, K. and S. Seitz, A Theory of Shape by Space Carving. International Journal of Computer Vision, 2000. 38(3): p. 197—216.
  7. Pollefeys, M., R. Koch, M. Vergauwen, B. Deknuydt, and L.V. Gool. Three-dimensional scene reconstruction from images. Procedings of SPIE Electronic Imaging, Three-Dimensional Image Capture and Applications III, SPIE Proceedings series. p. 215-226. 2000.
  8. Scharstein, D., Stereo vision for view synthesis. In IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR’96), pages 852-857, San Francisco, California, June 1996.
  9. Seitz, S.a.C.D. Photorealistic Scene Reconstruction by Voxel Coloring. Procedings of Computer Vision and Pattern Recognition Conference. p. 1067-1073. 1997.
  10. Taylor, C., P. Debevec, and J. Malik. Reconstructing Polyhedral Models of Architectural Scenes from Photographs. Procedings of ECCV ’96: Fourth European Conference on Computer Vision, 1996.
  11. Trucco, E. and A. Verri, Introductory Techniques for 3-D Computer Vision. 1998, New Jersey: Prentice Hall.
  12. PhotoModeler. [cited 2005 August]; Available from: http://www.PhotoModeler.com
  13. Canoma., http://www.canoma.com (July 2002).
  14. Liebowitz, D., A. Criminisi, and A. Zisserman. Creating Architectural Models from Images. Procedings of Eurographics 1999, Computer Graphics Forum. p. 39-50. 1999.
  15. Lengyel., J., The convergence of graphics and vision. Technical report, IEEE Computer, July 1998.
  16. Cyberware, Inc. [cited 2005 August]; Available from: http://www.cyberware.com
  17. Kang, S.B., A survey of image-based rendering techniques. VideoMetrics , SPIE, 1999. 3641: p. 2-16.

Статья впервые опубликована в выпуске №4(4)/200 сетевого журнала «Компьютерная графика и мультимедиа» ).

Комментарии запрещены.

На платформе WordPress.com. Тема: Baskerville 2, автор: Anders Noren.

Вверх ↑

%d такие блоггеры, как: