tesseract_integration #656

Dariiiii · 2025-03-20T23:20:00Z

No description provided.

HadronCollider · 2025-04-10T12:59:44Z

app/main/checks/report_checks/image_quality_check.py

@Dariiiii точно ли тут должен удаляться этот файл (т.е. фактически результат #647)?

HadronCollider

Влейте сюда изменения по комментариям из #647

HadronCollider · 2025-04-10T14:30:25Z

app/main/checks/report_checks/image_text_check.py

+        while time.time() - start_time < self.max_wait_time:
+            task_result = AsyncResult(task_id)
+            if task_result.state == 'SUCCESS':
+                recognized_text = task_result.result
+                recognized_text = re.sub(r'\s+', ' ', recognized_text)
+                image.text = recognized_text
+                add_image_text(task_id, recognized_text)
+                return recognized_text.strip()
+            time.sleep(1)


кажется, подобный подход ожидания не самый лучший (мы по факту блокируем всю проверку / очередь) - можно ли сделать "заглушку" (по типу фидбека "проверяется" в этой проверке), а в celery-задаче с тессерактом после распознавания и обработки - обновлять данные в БД проверки? но стоит добавить какую-то проверку, не слишком ли долго тессеракт обрабатывает картинку или вообще её не выполнил (чтобы обновить фидбек/результат критерия в соответствии со сложившейся ситуацией)

HadronCollider · 2025-04-22T21:27:40Z

app/routes/tasks.py

        'is_failed': False,
-        'params_for_passback': current_user.params_for_passback
+        'params_for_passback': current_user.params_for_passback,
+        'tesseract_result': -1


Чтобы не "обременять" модель проверки результатом тессеракта (он вероятно может быть большим и конкретно к проверке может не относиться - это больше характеристика файла) - вынесите в отдельную коллекцию - в неё же будет писать celery-задача и смотреть задачи по проверке - так же уйдут заполнения поля -1 и получением данных из бд на этапе формирования check
связь по check id

HadronCollider · 2025-04-22T22:00:43Z

app/tesseract_tasks.py

+}
+
+@celery.task(name="tesseract_recognize", queue='tesseract-queue', bind=True, max_retries=MAX_RETRIES, soft_time_limit=TASK_SOFT_TIME_LIMIT)
+def tesseract_recognize(self, check_id):


при подобном запуске теряется возможность устанавливать параметры из критерия - остаются только захардкоженые from main.checks.report_checks.image_text_check import SYMBOLS_SET, MAX_SYMBOLS_PERCENTAGE, MAX_TEXT_DENSITY

может быть можно запускать эту задачу из критерия, а не при извлечении изображений / загрузке файла, либо собирать только информацию по анализу изображений, а формировать полноценный фидбек в самом критерии?
(при втором варианте появляется зависимость от скорости работы тессеракта - "успеет ли он обработать изображения до начала проверки по критерию" плюс не совместим с текущим асинхронным подходом к обработке тессеракта -- поэтому насчет него не уверен)

HadronCollider · 2025-04-22T22:03:46Z

app/main/checks/report_checks/image_quality_check.py

+                if self.laplacian_score < self.min_laplacian:
+                    deny_list.append(f"Изображение с подписью '{img.caption}' имеет низкий показатель лапласиана: {self.laplacian_score} (минимум {self.min_laplacian}).<br>")
+
+                if self.entropy_score < self.min_entropy:
+                    deny_list.append(f"Изображение с подписью '{img.caption}' имеет низкую энтропию: {self.entropy_score} (минимум {self.min_entropy}).<br>")


ограничьте точность величин до сотых, чтобы избежать подобного

HadronCollider

Пока оставил комментарии только по модели - остальной код по мере обновлений / необходимости

Одна из мыслей - расширить данные о файле (сейчас она почти не используется и поверхностная), добавив туда агрегированные данные по всем изображениям в нем ()

HadronCollider · 2025-12-01T14:16:34Z

app/db/db_types.py

        is_failed = none_to_false(self.is_failed)  # None for old checks => False, True->True, False->False
        return {'is_ended': is_ended, 'is_failed': is_failed}
+
+class Image(PackableWithId):


Мы планируем уйти от PackableWithId в сторону "нормальной" mongo document model (с указанием типов полей и прочего), поэтому предлагаю новые модели делать с помощью них (поддержав нужны операции)

HadronCollider · 2025-12-01T14:18:51Z

app/db/db_types.py

+    def __init__(self, dictionary=None):
+        super().__init__(dictionary)
+        dictionary = dictionary or {}
+        self.check_id = dictionary.get('check_id')  # Привязка к check_id


Возможно тут стоит сохранять и id документа - 99% уверенности, что у него сейчас ID одинаковый с проверкой, но в будущем возможны изменения (и тогда документ будет, например, один, а проверок с ним несколько), сохранить изображения хватит один раз именно для документа

HadronCollider · 2025-12-01T14:20:30Z

app/db/db_types.py

+        dictionary = dictionary or {}
+        self.check_id = dictionary.get('check_id')  # Привязка к check_id
+        self.caption = dictionary.get('caption', '')  # Подпись к изображению
+        self.image_data = dictionary.get('image_data')  # Файл изображения в формате bindata


Полезный момент на будущее - добавить checksum на случай дубликатов (чтобы одна одинаковая фотка в 100 отправок / отчетах нам не занимала лишнее место и ресурсы на обработку)

HadronCollider · 2025-12-01T14:30:54Z

app/db/db_types.py

+        self.caption = dictionary.get('caption', '')  # Подпись к изображению
+        self.image_data = dictionary.get('image_data')  # Файл изображения в формате bindata
+        self.image_size = dictionary.get('image_size')  # Размер изображения в сантимерах
+        self.text = dictionary.get('text', None)


Возможно, обсуждали это ранее - есть мысли, что требующиеся нам метрики изображений (читаемость, плотность текста, пр) стоит сделать сразу при распознавании и хранить либо в документе изображения (как и сам полученный текст), либо в отдельной коллекции

ardnaxelas and others added 8 commits September 28, 2024 00:45

v1

d6b163c

v1.1

88f199c

v2: edit cases

5ecde02

prototype: images readability check

52d1afe

fix image_quality_check

e783ed9

v1 image_quality_check

5cc96ec

tesseract prototype

c15f5ab

TODO: Implement Tesseract-based text check

f645a68

github-actions bot added the has conflicts if new merge has conflicts label Mar 23, 2025

Dariiiii added 2 commits April 2, 2025 23:33

tesseract check v1

40cfc2d

add TASK_SOFT_TIME_LIMIT

b7acfcd

HadronCollider force-pushed the master branch from 9c1a610 to eb5d8e6 Compare April 8, 2025 18:58

Merge branch 'master' into image_check

456e238

HadronCollider reviewed Apr 10, 2025

View reviewed changes

HadronCollider requested changes Apr 10, 2025

View reviewed changes

HadronCollider mentioned this pull request Apr 11, 2025

Парсинг картинок из презентаций #25

Closed

Dariiiii and others added 7 commits April 14, 2025 22:25

first fix

89ee03b

trial version

c59c475

correction of tesseract

3f25405

Merge branch 'master' into tesseract-integration

7906f70

fix update_tesseract_criteria_result

7c195c8

update 469_extend_data_storage_model

40f51be

Merge branch 'image_check' into tesseract-integration

5fa3014

HadronCollider mentioned this pull request Apr 22, 2025

image_quality_check #647

Closed

update docker base tag

24eb092

HadronCollider requested changes Apr 22, 2025

View reviewed changes

HadronCollider added 2 commits April 23, 2025 01:26

Merge remote-tracking branch 'origin/master' into tesseract-integration

fc8e0c1

Merge branch 'master' into tesseract-integration

d05230a

github-actions bot removed the has conflicts if new merge has conflicts label Apr 22, 2025

correction of comments

57bee01

Dariiiii and others added 4 commits April 24, 2025 22:23

remove the typo

3b18e36

fix bug

050163a

Merge branch 'master' into tesseract-integration

3f3ef52

update tesseract_worker volume

5796e5f

HadronCollider reviewed Dec 1, 2025

View reviewed changes

github-actions bot added the has conflicts if new merge has conflicts label Dec 6, 2025

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

tesseract_integration #656

tesseract_integration #656

Uh oh!

Dariiiii commented Mar 20, 2025

Uh oh!

HadronCollider Apr 10, 2025

Uh oh!

HadronCollider left a comment

Uh oh!

HadronCollider Apr 10, 2025 •

edited

Loading

Uh oh!

HadronCollider Apr 22, 2025

Uh oh!

HadronCollider Apr 22, 2025

Uh oh!

HadronCollider Apr 22, 2025 •

edited

Loading

Uh oh!

HadronCollider left a comment

Uh oh!

HadronCollider Dec 1, 2025

Uh oh!

HadronCollider Dec 1, 2025

Uh oh!

HadronCollider Dec 1, 2025

Uh oh!

HadronCollider Dec 1, 2025

Uh oh!

Reviewers

Assignees

Labels

Projects

Milestone

Development

Uh oh!

3 participants

tesseract_integration #656

Are you sure you want to change the base?

tesseract_integration #656

Uh oh!

Conversation

Dariiiii commented Mar 20, 2025

Uh oh!

HadronCollider Apr 10, 2025

Choose a reason for hiding this comment

Uh oh!

HadronCollider left a comment

Choose a reason for hiding this comment

Uh oh!

HadronCollider Apr 10, 2025 • edited Loading Uh oh! There was an error while loading. Please reload this page.

Uh oh!

Choose a reason for hiding this comment

Uh oh!

HadronCollider Apr 22, 2025

Choose a reason for hiding this comment

Uh oh!

HadronCollider Apr 22, 2025

Choose a reason for hiding this comment

Uh oh!

HadronCollider Apr 22, 2025 • edited Loading Uh oh! There was an error while loading. Please reload this page.

Uh oh!

Choose a reason for hiding this comment

Uh oh!

HadronCollider left a comment

Choose a reason for hiding this comment

Uh oh!

HadronCollider Dec 1, 2025

Choose a reason for hiding this comment

Uh oh!

HadronCollider Dec 1, 2025

Choose a reason for hiding this comment

Uh oh!

HadronCollider Dec 1, 2025

Choose a reason for hiding this comment

Uh oh!

HadronCollider Dec 1, 2025

Choose a reason for hiding this comment

Uh oh!

Reviewers

Assignees

Labels

Projects

Milestone

Development

Uh oh!

3 participants

HadronCollider Apr 10, 2025 •

edited

Loading

HadronCollider Apr 22, 2025 •

edited

Loading