469 Дополнение модели данных для хранения распарсенного текста #496

blindsphynx · 2024-02-04T16:42:26Z

В класс Check добавлено поле parsed_chapters для хранения распарсенного текста ВКР в формате {"header" : "", "start_page" : 1, "text" : ""}
Добавлены функции parse_headers_and_pages и parse_chapters для соответствующего парсинга текста ВКР
Обработанный текст хранится в БД в коллекции checks

HadronCollider · 2024-03-12T22:24:52Z

app/server.py

+    parsed_file = DocxUploader()
+    parsed_file.upload(filepath)
+    parsed_file.parse()


Поскольку в систему загружаются разные виды/типы файлов (сейчас это и презентации, и doc-документы, и md-файлы) - парсинг файлгов происходит в отдельной функции, вам нужен раздел https://github.com/moevm/document_insight_system/blob/master/app/main/parser.py#L22

убрала этот фрагмент, парсинг текста перенесён в create_task (см. последний коммит)

HadronCollider · 2024-03-12T22:30:07Z

app/server.py

+    parsed_file.make_chapters("VKR")
+    parsed_file.make_headers("VKR")
+    chapters = parse_chapters(parsed_file)
+    chapters_with_headers = parse_headers_and_pages(chapters, parsed_file)


Не все docx-документы присылаемые в систему - VKR, тип документа определяется набором критериев (тип документа у отчета либо VKR либо LR) - поэтому parse_headers_and_pages для файла необходимо делать, видимо позднее, где известен тип документа (либо получать и проверять его)

Отсюда пара моментов

кажется, что парсинг файла при загрузке файла сильно задержит весь процесс (и ожидания пользователя)

для проверок / парсинга содержимого используется отдельная задача / исполнитель (celery worker для celery-задачи, в которой как раз и производится проверка + парсинг: https://github.com/moevm/document_insight_system/blob/master/app/tasks.py#L37)

парсинг перенесён в celery worker (create_task)

тип документа теперь берётся из check_obj

HadronCollider · 2024-03-12T22:31:44Z

app/server.py

@@ -225,7 +236,8 @@ def run_task():
        'score': -1,  # score=-1 -> checking in progress
        'is_ended': False,
        'is_failed': False,
-        'params_for_passback': current_user.params_for_passback
+        'params_for_passback': current_user.params_for_passback,
+        'parsed_chapters': chapters_with_headers


Кажется, обсуждали с вами, что для обработанного текста и дальнейшей его токенизации (или что вы планируете) нужно завести отдельную коллекцию, а с учетом, что checks - хранит все проверки (не только ВКР), это становится ещё более актуальным

Свяжите с конкретной проверкой добавив поле check_id + filename (чтобы была информация о проверке из которой был получен файл и как он называется - пригодится в дальнейшем)

Плюс ещё, что стоит подумать (если не думали) - пользователи могут загружать

одинаковые файлы по содержанию - пофиксили отступы, чтобы пройти критерий - сам текст не поменялся - стоит ли добавлять его в бд как ещё один документ (который получается сплагиачен с самого себя другого)?

немного различающиеся файлы - поменял подпись таблицы, чтобы пройти критерий - текст уже глобально (по какому-нибудь хэшу) другой, но получаем плагиает 99.99% с самого себя

создана новая коллекция parsed_texts, каждый документ в коллекции содержит _id проверки, имя файла и распарсенный по разделам и страницам текст

по поводу одинаковых файлов: при изменении внутри того же самого файла (таблицы, подписи и т. д.) нужно парсить имя этого файла, и если оно совпадает с новой проверкой, то обновлять текст в БД, а не загружать новый. если такой вариант подходит, в ближайшее время добавлю эту проверку

add ParsedText in db_types.py && move text parsing to create_task

blindsphynx requested a review from HadronCollider February 4, 2024 16:42

add parsed text to DB

80b481e

blindsphynx force-pushed the 469_extend_data_storage_model branch from 5207285 to 80b481e Compare February 4, 2024 16:52

blindsphynx changed the title ~~Дополнение модели данных для хранения распарсенного текста~~ 469 Дополнение модели данных для хранения распарсенного текста Feb 4, 2024

HadronCollider requested changes Mar 12, 2024

View reviewed changes

github-actions bot added the has conflicts if new merge has conflicts label Apr 9, 2024

add parsed_texts collection &&

7057bbb

add ParsedText in db_types.py && move text parsing to create_task

blindsphynx added has conflicts if new merge has conflicts and removed has conflicts if new merge has conflicts labels Apr 20, 2024

blindsphynx mentioned this pull request Apr 27, 2024

Добавить в README общее описание проекта moevm/mse1h2024-coderunner#17

Closed

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

469 Дополнение модели данных для хранения распарсенного текста #496

469 Дополнение модели данных для хранения распарсенного текста #496

blindsphynx commented Feb 4, 2024

HadronCollider Mar 12, 2024

blindsphynx Apr 19, 2024 •

edited

Loading

HadronCollider Mar 12, 2024

blindsphynx Apr 19, 2024

HadronCollider Mar 12, 2024 •

edited

Loading

blindsphynx Apr 19, 2024

469 Дополнение модели данных для хранения распарсенного текста #496

Are you sure you want to change the base?

469 Дополнение модели данных для хранения распарсенного текста #496

Conversation

blindsphynx commented Feb 4, 2024

HadronCollider Mar 12, 2024

Choose a reason for hiding this comment

blindsphynx Apr 19, 2024 • edited Loading

Choose a reason for hiding this comment

HadronCollider Mar 12, 2024

Choose a reason for hiding this comment

blindsphynx Apr 19, 2024

Choose a reason for hiding this comment

HadronCollider Mar 12, 2024 • edited Loading

Choose a reason for hiding this comment

blindsphynx Apr 19, 2024

Choose a reason for hiding this comment

blindsphynx Apr 19, 2024 •

edited

Loading

HadronCollider Mar 12, 2024 •

edited

Loading