Рассматривается известная задача распознавания ячеек таблиц на изображении. Исследуется обработка налогового российского документа 2-НДФЛ. Несмотря на простую структуру таблиц, способ печати основан на гибком шаблоне. Гибкость формы наблюдается как в части модификаций текстовой информации, так и в области таблиц. Гибкость таблиц состоит в изменении числа и размеров столбцов. Для детектирования таблиц был предложен структурный метод. Входными данными метода являются детектированные горизонтальные и вертикальные отрезки. Поиск отрезков проводился механизмами, реализованными в системе Smart Document Reader. Апробация и внедрение предложенного метода также осуществлялось в системе Smart Document Reader. Кроме детектирования области предполагаемого размещения таблиц решены следующие задачи: поиск ячеек таблиц, именование ячеек таблиц, валидация области таблицы. Валидация области таблицы проводилась для отдельных таблиц, а также для совокупностей таблиц. Применение описаний совокупностей таблиц обеспечило высокую надежность привязки набора таблиц.
Идентификаторы и классификаторы
- eLIBRARY ID
- 67205360
Текстовая таблица определяется как набор строк и столбцов. Границы строк и столбцов могут быть определены ограниченным числом способов представления данных: разделение сегментов (линий), разделение областей между ячейками текста, выделение цветом. Доступные по цене сканирующие устройства появились в конце 80-х - начале 90-х годов 20 века. Одновременно были разработаны коммерческие программы для распознавания текста (OCR). В OCR появилась возможность распознавать таблицы. Таблицы извлекались из страниц как произвольных, так и административных документов, таких как налоговые, банковские или страховые бланки. Такие документы содержали таблицы с известной или набранной структурой. Часто разработчики административных документов ограничиваются простыми таблицами в виде матриц.
В настоящее время ведутся исследования не только в области распознавания документов [1, 2], но и в области распознавания таблиц. В работе [3] говорится, что оптическое распознавание для восстановления данных из финансовых документов с использованием регрессионного анализа текста является дорогостоящим и непрактичным решением.
Список литературы
- Vasiliev S.S., Korobkin D.M., Kravets A.G., Fomenkov S.A., Kolesnikov S.G. Extraction of Cyber-Physical Systems Inventions Structural Elements Of Russian-Language Patents. Cyber-Physical Systems: Advances in Design and Modelling. Studies in Systems, Decision and Control, 2020, vol. 259, pp. 55-68. DOI: 10.1007/978-3-030-32579-4_5
- Slavin O., Arlazarov V., Tarkhanov I. Models and Methods Flexible Documents Matching Based on the Recognized Words. Cyber-Physical Systems: Advances in Design and Modelling. Studies in Systems, Decision and Control. Springer Nature Switzerland AG, 2021, vol. 350, pp. 173-184. DOI: 10.1007/978-3-030-67892-0_15 EDN: IWWARW
- Varma O., Srivastava S., Gayathri M. Technical Invoice Data Extraction System: State of the Art, Research Challenges and Countermeasures. Ambient Communications and Computer Systems. Lecture Notes in Networks and Systems, 2022, vol. 356, pp. 201-210. DOI: 10.1007/978-981-16-7952-0_19
- Pegu B., Singh M., Agarwal A., Mitra A., Singh K. Table Structure Recognition Using CoDec Encoder-Decoder. Document Analysis and Recognition - ICDAR 2021 Workshops. Lecture Notes in Computer Science, Lausanne, 2021, vol. 12917, pp. 66-80. DOI: 10.1007/978-3-030-86159-9_5
- Siddiqui S.A., Khan P.I., Dengel A., Ahmed S. Rethinking Semantic Segmentation for Table Structure Recognition in Documents. Proceedings of the International Conference on Document Analysis and Recognition, Sydney, 2019, pp. 1397-1402. DOI: 10.1109/ICDAR.2019.00225 EDN: VDSIXZ
- Gilani A., Qasim S.R., Malik I., Shafait F. Table Detection using Deep Learning. Proceedings of the International Conference on Document Analysis and Recognition, Kyoto, 2017, pp. 771-776. DOI: 10.1109/ICDAR.2017.131
- Gatos B., Danatsas D., Pratikakis I., Perantonis S.J. Automatic table detection in document images. Pattern Recognition and Data Mining, Third International Conference on Advances in Pattern Recognition, Bath, 2005, vol. 3686, pp. 609-618. DOI: 10.1007/11551188_67
- Siddiqui S.A., Malik M.I., Agne S., Dengel A., Ahmed S. DeCNT: Deep Deformable CNN for Table Detection. A Multidisciplinary Open Access Journal, 2018, vol. 6, pp. 74151-74161,. DOI: 10.1109/ACCESS.2018.2880211
- Prasad D., Gadpal A., Kapadni K., Visave M., Sultanpure K. CascadeTabNet: an Approach for End to End Table Detection and Structure Recognition from Image-Based Documents. Conference on Computer Vision and Pattern Recognition Workshops, Seattle, 2020, pp. 572-573. DOI: 10.1109/CVPRW50498.2020.00294
-
Gobel M., Hassan T., Oro E., Orsi G. ICDAR 2013 Table Competition. Proceedings of the International Conference on Document Analysis and Recognition, Washington, 2013, pp. 1449-1453. DOI: 10.1109/ICDAR.2013.292
-
Qiao Liang, Li Zaisheng, Cheng Zhanzhan, et al. LGPMA: Complicated Table Structure Recognition with Local and Global Pyramid Mask Alignment. Document Analysis and Recognition, 2021, article ID: 12821. DOI: 10.1007/978-3-030-86549-8_7
-
Liu Ying, Bai K., Mitra P., Giles C.L. Improving the Table Boundary Detection in PDFs by Fixing the Sequence Error of the Sparse Lines.International Conference on Document Analysis and Recognition, Barcelona, 2009, pp. 1006-1010. DOI: 10.1109/ICDAR.2009.138
-
Liu Ying., Mitra P., Giles C.L. Identifying Table Boundaries in Digital Documents via Sparse Line Detection. Proceedings of the Conference on Information and Knowledge Management, Napa Valley, 2008, pp. 1311-1320. DOI: 10.1145/1458082.1458255
-
Paliwal S.S., Vishwanath D., Rahul R., Sharma M., Vig L. Tablenet: Deep Learning Model for End-To-End Table Detection and Tabular Data Extraction from Scanned Document Images.International Conference on Document Analysis and Recognition, 2020, pp. 128-133. DOI: 10.1109/ICDAR.2019.00029
-
Schreiber S., Agne S., Wolf I., Dengel A., Ahmed S. Deepdesrt: Deep Learning for De-Tection and Structure Recognition of Tables in Document Images.International Conference on Document Analysis and Recognition, Kyoto, 2017, pp. 1162-1167. DOI: 10.1109/ICDAR.2017.192 EDN: VFNEXS
-
Siddiqui S.A., Fateh I.A., Rizvi S.T.R., Dengel A., Ahmed S. Deeptabstr: Deep Learning Based Table Structure Recognition.International Conference on Document Analysis and Recognition, Sydney, 2019, pp. 1403-1409. DOI: 10.1109/ICDAR.2019.00226 EDN: XJGIOB
-
Siddiqui S.A., Khan P.I., Dengel A., Ahmed S. Rethinking Semantic Segmentation for Table Structure Recognition in Documents.International Conference on Document Analysis and Recognition, Sydney, 2019, pp. 1397-1402. DOI: 10.1109/ICDAR.2019.00225 EDN: VDSIXZ
-
Tensmeyer C., Morariu V.I., Price B.L., Cohen S., Martinez T.R. Deep Splitting and Merging for Table Structure Decomposition.International Conference on Document Analysis and Recognition, Sydney, 2019, pp. 114-121. DOI: 10.1109/ICDAR.2019.00027 EDN: YOVVBY
-
Palm R.B., Winther O., Laws F. CloudScan - A Configuration-Free Invoice Analysis System Using Recurrent Neural Networks.International Conference on Document Analysis and Recognition, Kyoto, 2017, pp. 406-413. DOI: 10.1109/ICDAR.2017.74
-
Li Minghao, Cui Lei, Huang Shaohan, Wei Furu, Zhou Ming, Li Zhoujun. TableBank: A Benchmark Dataset for Table Detection and Recognition. Proceedings of the Twelfth Language Resources and Evaluation Conference, Marseille, 2020, pp. 1918-1925.
-
ICDAR 2013. Available at: https://paperswithcode.com/dataset/icdar-2013 (accessed on 08.10.2023).
-
Smart Document Engine - Automatic Analysis and Data Extraction from Business Documents for Desktop, Server and Mobile Platforms. Available at: https://smartengines.com/ocr-engines/document-scanner (accessed on 09.10.2023).
Выпуск
Другие статьи выпуска
Негативное воздействие вибраций на различные устройства и механизмы может быть значительным, поэтому важно учитывать этот фактор при проектировании, эксплуатации и техническом обслуживании различного оборудования и инженерных систем. Для защиты от негативного воздействия вибраций могут использоваться различные методы и технологии. Часто используются специальные демпфирующие материалы. Данная исследовательская работа посвящена анализу эффективности снижения вибрации с учетом физических параметров эластомерных материалов. Для проведения исследования построена математическая модель, описывающая движение балки, опирающейся на эластомерное основание. Модель основана на системе нелинейных дифференциальных уравнений. В ходе работы был разработан и применен алгоритм численного решения этой системы уравнений. Были проведены численные эксперименты для изучения реакции системы на различные случаи ускорений. В результате были получены величины прогиба для материалов с различными физическими характеристиками. Эти результаты могут послужить отправной точкой для более глубокого изучения материалов и создания более сложных конструкций.
Впервые изучены детерминированная и стохастическая системы Вентцеля уравнений Дзекцера в полусфере и на его границе. В детерминированном случае установлена однозначная разрешимость начальной задачи для системы Вентцеля в специфическом построенном гильбертовом пространстве. В случае стохастической гидродинамической системы пласт - скважина - коллектор используется теория производной Нельсона - Гликлиха и строится стохастическое решение, которое позволяет определять прогнозы количественного изменения геохимического режима грунтовых вод при безнапорной фильтрации. Отметим, что для изучаемой системы фильтрации рассматривалось неклассическое условие Вентцеля, поскольку оно представлено уравнением с оператором Лапласа - Бельтрами, заданным на границе области, понимаемой как гладкое компактное риманово многообразие без края, причем внешнее воздействие представлено нормальной производной функции, заданной в области.
В методах сопряженных градиентов формула сопряжения часто является основной точкой концентрации. Техника сопряженных градиентов используется для решения проблем, возникающих в процессе восстановления изображения. Используя квадратичную модель, для операции будет получено совершенно новое сопряжение коэффициентов. Алгоритмы демонстрируют как локальную, так и глобальную сходимость и спуск. Численное тестирование показало, что недавно разработанный метод намного превосходит тот, который существовал до него. Недавно созданная стратегия сопряженного градиента имеет более высокую производительность, чем метод сопряженного градиента FR, который является отраслевым стандартом.
Статья посвящена изучению морфологии фазового пространства математической модели деформации двутавровой балки, которое лежит на гладких банаховых многообразиях с особенностями (k-сборка Уитни) в зависимости от параметров задачи. Математическая модель изучена в случае, когда оператор при производной по времени является вырожденным. Исследование вопроса неединственности решения задачи Шоуолтера - Сидорова для модели Хоффа в двумерной области проведено на основе метода фазового пространства, который был разработан Г.А. Свиридюком. Найдены условия неединственности решения в случае, когда размерность ядра оператора при производной по времени равна 1 или 2. Представлены два подхода для выявления количества решений задачи Шоуолтера - Сидорова в случае, размерности ядра оператора при производной по времени равного 2. Приведены примеры, иллюстрирующие неединственность решения исследуемой задачи на прямоугольнике.
Рассматривается актуальная проблема получения приближенных численных решений обратных задач в виде интегральных уравнений Фредгольма первого рода для систем радио- и гидролокации и дистанционного зондирования. Полученные решения дают возможность существенно повысить точность измерений, а также довести угловую разрешающую способность до значений, превышающих критерий Рэлея. Это позволяет: получать детализированные радиоизображения различных объектов и зондируемых областей; определять количество отдельных малоразмерных объектов в составе сложных целей, которые раздельно не фиксировались без представляемой обработки сигналов; получать координаты таких малоразмерных объектов с высокой точностью; повысить вероятности получения правильных решений задач распознавания и идентификации объектов. Метод применим для современных многоэлементных измерительных систем. Он основан на экстраполяции сигналов, принимаемых всеми элементами, за пределы самой системы. Решена задача создания необходимой для этого нейронной сети и ее обучения. В итоге, синтезируется новая виртуальная измерительная система значительно большего размера, что позволяет резко повысить угловое разрешение и тем самым повысить качество приближенных решений рассматриваемых обратных задач. На примерах демонстрируется эффективность метода, оценивается адекватность и устойчивость получаемых решений. Исследуется степень превышения виртуальной угломерной системой критерия Рэлея в зависимости от отношения сигнал/шум.
Рассматривается задача об одноруком бандите в приложении к пакетной обработке данных, если имеются два альтернативных метода обработки с разной эффективностью, причем эффективность второго метода априори неизвестна. В процессе обработки необходимо определить наиболее эффективный метод и обеспечить его преимущественное использование. Обработка выполняется пакетами, поэтому распределение доходов является гауссовским. Мы рассматриваем случай априори неизвестных математического ожидания и дисперсии одношагового дохода, соответствующих второму действию. Этот случай описывает ситуацию, когда сами пакеты и их количество имеют умеренные или небольшие объемы. Получены рекуррентные уравнения для вычисления байесовского риска и функции потерь, которые затем представлены в инвариантном виде с горизонтом управления, равным единице. Это позволяет получить оценки байесовского и минимаксного рисков, которые справедливы для всех горизонтов управления, кратных количеству обработанных пакетов.
В данной работе исследуется устойчивость решений стохастического уравнения Осколкова, описывающего плоскопараллельное течение вязкоупругой жидкости. Это уравнение мы рассматриваем в виде стохастического полулинейного уравнения соболевского типа. Во-первых, мы рассмотрим разрешимость стохастического уравнения Осколкова методом стохастического фазового пространства. Во-вторых, мы рассмотрим устойчивость решений этого уравнения. Доказаны необходимые условия существования устойчивых и неустойчивых инвариантных многообразий стохастического уравнения Осколкова. При решении задачи стабилизации это уравнение рассматривается как редуцированная стохастическая система уравнений. Задача стабилизации решается на основе принципа обратной связи; показаны графики решения до стабилизации и после стабилизации.
Развитие водородной энергетики неразрывно связано с обеспечением водородной безопасности и исследованием процессов, протекающих при горении водород-содержащих смесей. Использование численного моделирования позволяет исследовать поведение системы в диапазонах изменения основных параметров, не покрытых экспериментальными данными. В данной работе представлена модель, позволяющая моделировать течения химически реагирующих сплошных сред, верифицированная на экспериментальных данных по распространению пламени в ударной трубе с перегородками, заполненной водород-воздушной смесью.
Издательство
- Издательство
- ЮУрГУ
- Регион
- Россия, Челябинск
- Почтовый адрес
- 454080, Уральский федеральный округ, Челябинская область, г. Челябинск, просп. В.И. Ленина, д. 76
- Юр. адрес
- 454080, Уральский федеральный округ, Челябинская область, г. Челябинск, просп. В.И. Ленина, д. 76
- ФИО
- Александр Рудольфович Вагнер (Ректор)
- E-mail адрес
- admin@susu.ru
- Контактный телефон
- +7 (351) 2635882
- Сайт
- https://www.susu.ru