-
Notifications
You must be signed in to change notification settings - Fork 86
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
Fix of TextDataMerger #1052
Fix of TextDataMerger #1052
Conversation
andreygetmanov
commented
Feb 22, 2023
- now text columns from multiple sources can be merged to 1 column (so early fusion strategy is available)
- test_data_merge_texts is changed
Codecov Report
@@ Coverage Diff @@
## master #1052 +/- ##
==========================================
+ Coverage 88.13% 88.32% +0.18%
==========================================
Files 130 133 +3
Lines 9305 9523 +218
==========================================
+ Hits 8201 8411 +210
- Misses 1104 1112 +8
Help us with your feedback. Take ten seconds to tell us how you rate us. Have a feature suggestion? Share it here. |
if any(len(pred.shape) > 2 for pred in predicts): | ||
raise ValueError('Merge of arrays with more than 2 dimensions is not supported') |
There was a problem hiding this comment.
Choose a reason for hiding this comment
The reason will be displayed to describe this comment to others. Learn more.
тут может придти predict с формами [(n, 1), (m, 1)]?
There was a problem hiding this comment.
Choose a reason for hiding this comment
The reason will be displayed to describe this comment to others. Learn more.
тут может придти predict с формами [(n, 1), (m, 1)]?
Пока мёржер работает только на сшивание текста и текста. Он сшивает столбцы, поэтому если придёт predict, который ты описал, тут два варианта:
- Либо мёржер пытается сшить текстовый столбец и таблицу (я пока думаю, насколько есть смысл это делать, пока что польза неочевидна, поэтому и не добавил в PR)
- Либо он каким-то образом пытается сшить неодномерный текст. Тогда всё сломается во многих местах, Федот работает с текстовыми признаками как столбцами (n, 1) или (n, ).
Резюмируя: вряд ли, тогда бы всё сломалось. А если и придёт, то оптимизатор просто пропустит этот вариант. Я пока глубоко в историю оптимизации не копал, но во время запуска мультимодальных примеров все популяции в поколении обучались без ошибок
There was a problem hiding this comment.
Choose a reason for hiding this comment
The reason will be displayed to describe this comment to others. Learn more.
Сюда гарантированно придет 2+текста, без таблиц?
There was a problem hiding this comment.
Choose a reason for hiding this comment
The reason will be displayed to describe this comment to others. Learn more.
Сюда гарантированно придет 2+текста, без таблиц?
Случай с таблицами учитывается (см. сообщения выше). TLDR: сшивать текст с таблицей не нужно, при такой попытке - выбросит Error и пойдёт дальше
Это фикс только для одной из проблем-сливания текстов. Но существует еще одна: иногда в пайплайне полностью отсутствуют data_source узлы. Надо это фиксить до обучения (можно исправить это правило) |
There was a problem hiding this comment.
Choose a reason for hiding this comment
The reason will be displayed to describe this comment to others. Learn more.
Только исправить второй баг и ок
Не вижу проблемы исправить его прямо тут - не должно занять много времени |
Изучил работу пайплайн чекеров. Дело в том, что в рамках конкретного пайплайна (если не привязаны данные, а привязка происходит уже после проверок) однозначно определить, является ли пайплайн мультимодальным, невозможно. Чек |
Если в этом всё остальное уже готово - то можно и в следующем. |
Ок, завёл issue |
- test_data_merge_texts was changed
759f8a1
to
fa9db71
Compare