ШИ ЦЗИН.

Формат текста для Программы вычисления таблиц.

 

Файл с текстом Ши цзин, являющийся исходным для Программы вычисления таблиц, подобен html-файлу.

Кодировка utf-8.

Определим формат файла как регулярное выражение, не совсем формально, но в интуитивно очевидной форме.
Ниже литералы изображаются жирным шрифтом, метасимволы изображаются курсивом.
Пробелы используются только для наглядности представления и не являются символами текста.

Кроме иероглифов текста, файл может содержать только следующие литералы:
0   1   2   3   4   5   6   7   8   9   (   )   ,   .   =   、 ,  。   <   >   b   r   E   \u000A   \u000D

Только в одном стихотворении (2,8,2)=226 вместо китайской запятой  、 4 раза используется запятая .

Файл_с_текстом_Ши_цзин   =   Раздел_1   Раздел_2   Раздел_3   Раздел_4   E \u000D \u000A

Раздел_i   =   Заголовок_Раздела_i   Подраздел_i1   ...   Подраздел_in
где in– номер последнего подраздела внутри раздела i.

Заголовок_Раздела_i   =   ( i ) X < b r > < b r > \u000D \u000A
где X – текст названия раздела, содержащий только иероглифы (но не китайские запятые и точки ).

Пример заголовка раздела: (1)國風<br><br>\u000D \u000A

Подраздел_ij   =   Заголовок_подраздела_ij   Стихотворение_ij1   ...   Стихотворение_ijnij
где nij – номер последнего стихотворения внутри подраздела ij.

Заголовок_подраздела_ij   =   ( i , j ) Y < b r > < b r > \u000D \u000A
где Y – текст названия подраздела, содержащий только иероглифы (но не китайские запятые и точки ).

Пример заголовка подраздела: (1,1)周南<br><br>\u000D \u000A

Стихотворение_ijk   =   Заголовок_стихотворения_ijk   Строфа   ...   Строфа

Заголовок_стихотворения_ijk   =      ( i , j , k ) = N . Z < b r > < b r > \u000D\u000A
                                                           |   ( i , j , k ) . Z < b r > < b r > \u000D \u000A
где N – глобальный номер стихотворения, имеющего текст,
у 6 стихотворений Ши цзин нет текста ("мелодия для шэна") и для них используется вторая форма заголовка,
Z – текст названия стихотворения, содержащий только иероглифы (но не китайские запятые и точки ).

Пример 1 заголовка стихотворения: (1,1,1)=1.關睢<br><br>\u000D \u000A
Пример 2 заголовка стихотворения: (2,1,10).南陔<br><br>\u000D \u000A

Строфа   =   Строка   ...   Строка   Последняя_строка

Строка   =       Фраза 、   ...   Фраза 、   Фраза 。   < b r > \u000D \u000A
                      |   Фраза 、   ...   Фраза 、   Фраза 、   < b r > \u000D \u000A
                      |   Фраза 、   ...   Фраза 、   Фраза   < b r > \u000D \u000A
Стандартная форма строки – первая, а вторая и третья использованы для тех случаев, когда строка (заканчивающаяся переводом строки) и предложение (заканчивающееся китайской точкой ) не совпадают.

Последняя_строка   =    Фраза 、   ...   Фраза 、   Фраза 。   < b r > < b r > \u000D \u000A

Фраза   =  текст, содержащий только иероглифы (но не китайские запятые и точки ).

Пример строфы:
汎彼柏舟、在彼河側。<br> \u000D \u000A
髧彼兩髦、實維我特。<br> \u000D \u000A
之死矢靡慝。<br> \u000D \u000A
母也天只、不諒人只。<br><br>
\u000D \u000A

Замечу, что при просмотре файла, например, в WORD или в браузере, вместо символов \u000D \u000A будет физический перенос строки.

Файл Ши цзин в этом формате можно посмотреть как плоский файл – TEXT_SHIJING.txt.

В html-файле – TEXT_SHIJING.html – перед текстом стоит html-заголовок:
<html><head><title>Текст ШИ ЦЗИН</title><meta http-equiv='Content-Type' content='text/html; charset=utf-8'></head><body>\u000D\u000A
а после текста находится строка </body></html>
Поэтому при просмотре html-файла в WORD или в браузере вместо <br> \u000D \u000A будет физический перенос строки, а вместо <br><br> \u000D \u000A – два переноса строки, т.е. ещё пустая строка.

вверх