forked from kba/gt-guidelines
-
Notifications
You must be signed in to change notification settings - Fork 1
Commit
This commit does not belong to any branch on this repository, and may belong to a fork outside of the repository.
- Loading branch information
Showing
2 changed files
with
71 additions
and
33 deletions.
There are no files selected for viewing
This file contains bidirectional Unicode text that may be interpreted or compiled differently than what appears below. To review, open the file in an editor that reveals hidden Unicode characters.
Learn more about bidirectional Unicode characters
This file contains bidirectional Unicode text that may be interpreted or compiled differently than what appears below. To review, open the file in an editor that reveals hidden Unicode characters.
Learn more about bidirectional Unicode characters
Original file line number | Diff line number | Diff line change |
---|---|---|
@@ -1,39 +1,77 @@ | ||
<?xml version="1.0" encoding="UTF-8"?> | ||
<!DOCTYPE topic PUBLIC "-//OASIS//DTD DITA Topic//EN" "topic.dtd"> | ||
<topic id="ruleset"> | ||
<title>🏛 OCR-D-GT-Ruleset</title> | ||
<title>📜 OCR-D-GT-Ruleset</title> | ||
<body> | ||
<p>Das OCR-D-GT-Ruleset ist ein Regelsatz, der verschiedene Schreibweisen von Buchstaben in | ||
verschiedenen Level der Transkription dokumentiert. Es sind drei Level vorgesehen: <ul | ||
id="ul_cbf_2xx_rzb"> | ||
<li>Die erste Spalte enthält die Schreibweise, die spezifische drucktechnische | ||
Aspekte und typographischen Besonderheiten nicht beachten (<xref | ||
href="level_1_4.dita"/>).</li> | ||
<li>die zweite Spalte enthält die Schreibweise, die <b>Drucktechnischen | ||
Gegebenheiten</b> wiedergeben und eine Interpretation von Zeichen orientiert | ||
sich am <b>Gebrauch im Sprach- und Schriftsystem</b> (<xref | ||
href="level_2_2.dita"/>). </li> | ||
<li>die dritte Spalte enthält die Schreibweise, die eine <b>Interpretation</b> von | ||
Graphen <b>vollständig unterlässt</b>. Der Graph wird als ein Codepoint unter | ||
Nutzung von standardisierten Kodierungen (Unicode), communitynormierten | ||
Kodierungen (MUFI) und durch das Koordinierungsgremium festgelegten Kodierungen | ||
abgebildet (<xref href="level_3_1.dita"/>). </li> | ||
</ul></p> | ||
<section> | ||
<title>OCR-D-GT-Ruleset Transkription</title> | ||
<p>Das OCR-D-GT-Ruleset Transkription ist ein Regelsatz, der verschiedene Schreibweisen von Buchstaben | ||
in verschiedenen Level der Transkription dokumentiert. Es sind drei Level | ||
vorgesehen: <ul id="ul_cbf_2xx_rzb"> | ||
<li>Die erste Spalte enthält die Schreibweise, die spezifische drucktechnische | ||
Aspekte und typographischen Besonderheiten nicht beachten (<xref | ||
href="level_1_4.dita"/>).</li> | ||
<li>die zweite Spalte enthält die Schreibweise, die <b>Drucktechnischen | ||
Gegebenheiten</b> wiedergeben und eine Interpretation von Zeichen | ||
orientiert sich am <b>Gebrauch im Sprach- und Schriftsystem</b> (<xref | ||
href="level_2_2.dita"/>). </li> | ||
<li>die dritte Spalte enthält die Schreibweise, die eine <b>Interpretation</b> | ||
von Graphen <b>vollständig unterlässt</b>. Der Graph wird als ein Codepoint | ||
unter Nutzung von standardisierten Kodierungen (Unicode), | ||
communitynormierten Kodierungen (MUFI) und durch das Koordinierungsgremium | ||
festgelegten Kodierungen abgebildet (<xref href="level_3_1.dita"/>). </li> | ||
</ul></p> | ||
<p>Das Ruleset im Json-Format: <codeblock outputclass="language-json">{"ruleset":[ | ||
{"rule": ["a","a","a"], "type": "level"}, | ||
{"rule": ["aa","ã","ã"], "type": "level"}, | ||
{"rule": ["e","e","e"], "type": "level"} | ||
] | ||
}</codeblock></p> | ||
<p>Das Ruleset im XML-Format: <codeblock outputclass="language-xml"><levelrules> | ||
<ruleset> | ||
<range>AlphPresForm</range> | ||
<rule>ff</rule> | ||
<rule>ff</rule> | ||
<rule>ff</rule> | ||
<type>level</type> | ||
</ruleset> | ||
</levelrules></codeblock>Das Element <codeph><range></codeph> ist ein optionales | ||
Element. In den Rulesets, die auf dem MUFI Datenset basieren ist dieses Element zu | ||
finden.</p> | ||
|
||
|
||
<p>Rulesets:<ul id="ul_apm_t5n_vzb"> | ||
<li><xref href="https://github.com/tboenig/gt-guidelines/tree/gh-pages/rules" | ||
format="html" scope="external">OCR-D-GT Guidelines Ruleset</xref><ul | ||
id="ul_q5d_mvn_vzb"> | ||
<li><xref | ||
href="https://github.com/tboenig/gt-guidelines/blob/gh-pages/rules/ruleset_character.json" | ||
format="html" scope="external" | ||
>ruleset_character.json</xref></li> | ||
<li><xref | ||
href="https://github.com/tboenig/gt-guidelines/blob/gh-pages/rules/ruleset_hyphenation.json" | ||
format="html" scope="external" | ||
>ruleset_hyphenation.json</xref></li> | ||
<li><xref | ||
href="https://github.com/tboenig/gt-guidelines/blob/gh-pages/rules/ruleset_ligature.json" | ||
format="html" scope="external">ruleset_ligature.json</xref></li> | ||
<li><xref | ||
href="https://github.com/tboenig/gt-guidelines/blob/gh-pages/rules/ruleset_roman_digits.json" | ||
format="html" scope="external" | ||
>ruleset_roman_digits.json</xref></li> | ||
</ul></li> | ||
<li><xref href="https://tboenig.github.io/gt-MufiLevelRules/" format="html" | ||
scope="external">OCR-D-Level-Rules (Mufi)</xref></li> | ||
</ul></p> | ||
|
||
<codeblock outputclass="language-json"> | ||
{"ruleset":[ | ||
{"rule": ["a","a","a"], "type": "level"}, | ||
{"rule": ["aa","ã","ã"], "type": "level"}, | ||
{"rule": ["e","e","e"], "type": "level"} | ||
] | ||
} | ||
</codeblock> | ||
<p>Das OCR-D-GT-Ruleset wird im JSON-Format gespeichert.</p> | ||
<p>Das OCR-D-GT-Ruleset-JSON-Schema entspricht der Version 2020-12.</p> | ||
<ul> | ||
<li><xref href="https://github.com/tboenig/gt-guidelines/schema/OCR-D-GT-levelSchema.json" | ||
format="html" scope="external">OCR-D-GT-Ruleset-JSON-Schema</xref></li> | ||
|
||
</ul> | ||
<p>Rulesetformat: | ||
|
||
<ul id="ul_mrq_xvn_vzb"> | ||
<li><xref | ||
href="https://github.com/tboenig/gt-guidelines/schema/OCR-D-GT-levelSchema.json" | ||
format="html" scope="external">OCR-D-GT-Ruleset-JSON-Schema</xref></li> | ||
</ul> | ||
</p> | ||
</section> | ||
</body> | ||
</topic> |