-
Notifications
You must be signed in to change notification settings - Fork 73
/
Copy pathspecifics.txt
53 lines (39 loc) · 5.1 KB
/
specifics.txt
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
Особливості словника.
Мета цього словника - практичне застосування в галузі NLP для української мови, тому він відрізняється від академічних словників деякими моментами.
Цей словник:
* не містить надто рідкісних, застарілих, діалектних або вузькоспеціалізованих слів, особливо тих, що вносять омонімію з сучасними значеннями (напр., відсутнє діалектне слово «весь» у значенні «село»)
* не містить інформації про наголоси (але має окремі леми з різними наголосами, якщо відрізняються парадигми)
* не розрізняє леми, що не мають відмінностей в парадигмах (за винятком окремих випадків, напр., є або немає порівняльної форми: приладний (від «прилад»)/приладний (улесливий))
* містить інформацію про омонімію між дієприкметниками і прикметниками
* трактує займенники, як відповідні іменники, прикметники або прислівники (але подає додатковий тег &pron)
* для дієприкметників вказано категорію доконаності/недоконаності (за відповідним дієсловом), а не категорію часу, бо на відміну від дієслів дієприкметники не виражають стосунку до моменту мовлення (див. "Теоретична морфологія української мови", с. 287)
* не надає тегів &predic для безособових форм дієслів (оскільки всі безособові форми можуть бути предикативами)
Також для спрощення парадигм і запобіганню зайвої омонімії у множині деякі категорії слів об'єднують ч.р. та ж.р. у одну лему в індентованому виходовому файлі. Напр.
суддя noun:anim:m:v_naz
суддя noun:anim:f:v_naz
судді noun:anim:p:v_naz
...
Це стосується таких категорій:
1) слова що позначають обидва роди: суддя, бідага...
2) слова з подвійним родом: бабище, биця...
3) прикметники-іменники: безпартійний, поранений
4) іншомовні слова що й так і так вживають: ауді, агреже, есемес
5) якісь назви, що вживають по різному ДахаБраха - гурт (ч.р.) але морфологічно - ж.р.
Особливості парадигм окремих слів:
* пекло - пекел (ГС - пекл, УЛІФ - лише одн.)
* привид: істота і неістота (ГС, УЛІФ - лише неістота, р.в. -у)
* труп: істота і неістота (ГС, УЛІФ - лише неістота, р.в. -а)
* басищеві - за ГС цю форму не подаємо (в УЛІФ вона є)
* ікло - іклів (за ГС та r2u, в УЛІФ - ікл)
* раза в словнику немає, але LanguageTool протегує цю форму з р.в. після десяткових дробів і «півтора»
див. http://www.kulturamovy.org.ua/KM/pdfs/mix/61-12-65-26.pdf
* люди, президенти в словнику мають лише тег з.в. мн., але LanguageTool у фразах вийти в люди, кандидат в президенти буде міняти відмінок на v_zna
Відмінності в назвах нас. пунктів порявняно з УЛІФом:
* Ванжулів - Ванжулевого (треба Ванжулева), Ванів — Ваневого (треба Ванева)...
* в множинних назвах часто має -ів в род. відм.: Верчани — Верчанів, де краще Верчан...
Тег anim також надано для неістот, що граматично виступають, як істоти: телекомоператор, провайдер тощо
Значення мінералів та окремих каменів, що відрізняють закінченням р.в. однини об'єднано в одну лему.
Субстантивовані прикметники введено там, де вони мають одну з трьох властивостей:
а) частотні
б) мають виражену функцію іменника
в) мають виражену форму істоти