Skip to content

Commit 4bb4051

Browse files
committed
fix further encoding issues
1 parent 7399238 commit 4bb4051

File tree

1 file changed

+18
-2
lines changed

1 file changed

+18
-2
lines changed

Script/clean-final-data.R

Lines changed: 18 additions & 2 deletions
Original file line numberDiff line numberDiff line change
@@ -69,7 +69,15 @@ WRONG <- c("<U+0096>", "<U+0092>", "<U+0097>", "<U+00A0>", "<U+009A>",
6969
"<U+00AD>", "<U+00AE>", "<U+00AB>", "<U+00BB>", "<U+0099>",
7070
"<U+0203>", "<U+0392>", "<U+0421>", "<U+041C>", "<U+202A>",
7171
"<U+039A>", "<U+0441>", "<U+0410>", "<U+00A9>", "<U+200E>",
72-
"<U+00B3>", "<U+02BD>", "<U+1EA1>", "<U+1ECD>", "<U+1ED9>")
72+
"<U+00B3>", "<U+02BD>", "<U+1EA1>", "<U+1ECD>", "<U+1ED9>",
73+
"<U+04E7>", "<U+1ECC>", "<U+00A4>", "<U+0087>", "<U+E524>",
74+
"<U+00A2>", "<U+1EE7>", "<U+1EE9>", "<U+009C>", "<U+00BA>",
75+
"<U+0084>", "<U+00B2>", "<U+00B0>", "<U+021A>", "<U+03A4>",
76+
"<U+0391>", "<U+041E>", "<U+041F>", "<U+0413>", "<U+0422>",
77+
"<U+0423>", "<U+03C1>", "<U+039F>", "<U+0095>", "<U+03B3>",
78+
"<U+0384>", "<U+03BF>", "<U+03BD>", "<U+03C5>", "<U+2009>",
79+
"<U+00AC>", "<U+03CE>", "<U+03BA>", "<U+03B9>", "<U+202F>",
80+
"<U+00B8>", "<U+0412>", "<U+0430>")
7381

7482
RIGHT <- c("", "'", "", " ", "š",
7583
"ʻ", "ž", "", "", "",
@@ -80,7 +88,15 @@ RIGHT <- c("–", "'", "—", " ", "š",
8088
"-", "®", "«", "»", "",
8189
"ȃ", "B", "C", "M", "",
8290
"K", "c", "A", "©", "",
83-
"³", "ʽ", "", "", "")
91+
"³", "ʽ", "", "", "",
92+
"ö", "", "¤", "", " ",
93+
"¢", "", "", "œ", "°",
94+
" ", "²", "°", "Ț", "T",
95+
"A", "О", "П", "Г", "Т",
96+
"У", "ρ", "Ο", "", "γ",
97+
"´", "ο", "ν", "υ", " ",
98+
"¬", "ώ", "κ", "ι", " ",
99+
"¸", "B", "a")
84100

85101
editors$editor <- stringi::stri_replace_all_fixed(
86102
editors$editor,

0 commit comments

Comments
 (0)