Íèæå ïðèâåäåí ïðèìåð xml ôàéëà:
<?xml version=1.0" encoding=utf-8"?>
<root>
<ti Fs=44100" bits=16" len=37">
<win>8192 6144 4096 3072 2048 1536 1024 768 512</win>
<fr>25 254.118 380.767 508.235 761.533 952.011 1523.07 2032.95 3046.13 4200</fr>
</ti>
<notes>
<n cw=1" f=bg#>
<t p=0.4513" ts=3">
<a>643</a>
<a>515</a>
</t>
<t p=-0.1275" ts=8">
<a>810</a>
<a>268</a>
</t>
</n>
<n cw=1" f=ba#>
<t p=2.91374" ts=14">
<a>113</a>
<a>811</a>
<a>585</a>
<a>224</a>
<a>7</a>
</t>
</n>
<n cw=1" f=bf>
<t p=1.456" ts=26">
<a>327</a>
<a>318</a>
</t>
</n>
<n cw=2" f=1c#>
<t p=0.87454" ts=13">
<a>304</a>
<a>330</a>
<a>80</a>
</t>
</n>
</notes>
</root>
 êîðíåâîì òåãå xml-ôàéëà íàõîäÿòñÿ äâà îáÿçà-òåëüíûõ ðàçäåëà ñ òåõíè÷åñêîé èíôîðìàöèé òåã
<ti> è ñ èíôîðìàöèåé î íîòàõ òåã <notes>. Ïåðâûé ðàçäåë âêëþ÷àåò â ñåáÿ èíôîðìàöèþ, íåîáõîäèìóþ äëÿ âîñïðîèçâåäåíèÿ ôàéëà: ÷àñòîòó äèñêðåòèçàöèè, äëèíû îêîí, ÷àñòîòíûé äèàïàçîí è ò. ï. Âòîðîé ðàç-äåë ñîäåðæèò òåãè ñ èíôîðìàöèåé î íîòå (÷àñòîòå), êîòîðàÿ ïðèñóòñòâóåò â ñèãíàëå. Âíóòðè ýòîãî òåãà ñî-äåðæàòñÿ äî÷åðíèå òåãè <n>, õðàíÿùèå èíôîðìàöèþ î âðåìåíè íà÷àëà çâó÷àíèÿ ýòîé íîòû, åå ïðîäîëæè-òåëüíîñòè, ãðîìêîñòè çâó÷àíèÿ (àìïëèòóäå) è ôàçå.
Èíôîðìàöèÿ îá àìïëèòóäå è ôàçå íîòû èñïîëü-çóåòñÿ äëÿ êîððåêòíîãî âîññòàíîâëåíèÿ çâóêîâîãî ñèãíàëà. Àìïëèòóäà íîòû â ýòîì ñëó÷àå ÿâëÿåòñÿ îãè-áàþùåé íåñóùåãî ñèãíàëà ñ ÷àñòîòîé, êîòîðàÿ ñîîò-âåòñòâóåò ðàññìàòðèâàåìîé íîòå, à ôàçà îêàçûâàåò âëèÿíèå íà âðåìåííóþ ñîñòàâëÿþùóþ. Ñôîðìèðî-âàííûé òàêèì îáðàçîì ñåãìåíò çâó÷àíèÿ íîòû âñòàâ-ëÿåòñÿ â ñèíòåçèðóåìûé âûõîäíîé ñèãíàë áåç ñêà÷-êîâ íà ñòûêàõ. Áåç ýòèõ äàííûõ âî âðåìÿ ïðîñëóøè-âàíèÿ áûëè áû ñëûøíû ðàçëè÷íûå èñêàæåíèÿ çâó-êà: ùåë÷êè, òðåñê è ò. ï. (ïîÿâëåíèå ïàðàçèòíûõ âû-ñîêèõ ÷àñòîò).
Òàêæå ïîëüçîâàòåëü ìîæåò äîáàâèòü â ôàéë ëþ-áîé äðóãîé ðàçäåë ñ íåîáõîäèìîé åìó èíôîðìàöèåé
(íàçâàíèå ïðîèçâåäåíèÿ, àâòîðà, èñïîëíèòåëÿ è ò. ï.), íå íàðóøèâ ïðè ýòîì öåëîñòíîñòü äàííûõ.
Ðàçìåð è ñòðóêòóðà xml-ôàéëîâ çàâèñÿò îò ñëîæ-íîñòè âðåìÿ-÷àñòîòíîãî ñîñòàâà ìóçûêàëüíîãî ñèã-íàëà, êîòîðûé íåîáõîäèìî ñîõðàíèòü äëÿ ïîñëå-äóþùåé îáðàáîòêè.
3.5. Ïîèñê ìóçûêàëüíûõ ïðîèçâåäåíèé ïî íîòíîìó ñîñòàâó
Íà äàííûé ìîìåíò äëÿ ïðîâåðêè ïðàâèëüíîñòè ïðåä-ëîæåííîãî ìåòîäà ðàçðàáîòàí àëãîðèòì ïðÿìîãî ïî-èñêà.
Àëãîðèòì çàêëþ÷àåòñÿ â ñðàâíåíèè xml-ôàé-ëîâ, ñîäåðæàùèõ íîòíûé ñîñòàâ ôðàãìåíòà ìóçû-êàëüíîãî ïðîèçâåäåíèÿ, êîòîðûé ïðåäîñòàâèë ïîëüçîâàòåëü, è íîòíûå ñîñòàâû ìóçûêàëüíûõ ïðî-èçâåäåíèé, õðàíÿùèõñÿ â áàçå äàííûõ.
Äëÿ ñðàâíåíèÿ íîòíûé ñîñòàâ èç xml-ôàéëîâ ïå-ðåâîäèòñÿ â äâóìåðíûé ìàññèâ (ðèñ. 6, 9), ãäå ñòîëá-öû ïðåäñòàâëÿþò âðåìÿ çâó÷àíèÿ íîò, à ñòðîêè ñàìè íîòû. Çíà÷åíèÿ àìïëèòóäû íîòû è ôàçû â àëãîðèòìå ïîèñêà íå èñïîëüçóþòñÿ. Ó÷èòûâàåòñÿ òîëüêî ôàêò ñóùåñòâîâàíèÿ íîòû èëè åå îòñóòñòâèÿ.
Èç ïîëó÷åííûõ ìàññèâîâ áåðåòñÿ äâà ôðàãìåíòà îäèíàêîâîé ðàçìåðíîñòè (ðàçìåð ïî êîëè÷åñòâó íîò âñåãäà îäèíàêîâ, ðàçìåð ïî âðåìåíè çàäàåòñÿ ïî èñ-õîäíîìó ìàññèâó ìèíèìàëüíîãî ðàçìåðà) è ðàññ÷è-òûâàåòñÿ êîýôôèöèåíò êîððåëÿöèè ìåæäó íèìè.
Åñëè ðàçìåð ïî âðåìåíè ó ôðàãìåíòîâ ðàçíûé, òî äåëàåòñÿ ñäâèã ïî îñè âðåìåíè ó áîëüøåãî ìàññèâà è ðàññ÷èòûâàåòñÿ íîâûé êîýôôèöèåíò êîððåëÿöèè.
Òàê êàê ìóçûêàëüíûå ïðîèçâåäåíèÿ ìîãóò áûòü ñûãðàíû â ðàçíûõ òîíàëüíîñòÿõ, òî äëÿ êàæäîãî âðåìåííîãî ôðàãìåíòà òàê æå äåëàåòñÿ ñäâèã ìàñ-ñèâîâ ïî îñè ÷àñòîò.
Èç âñåõ ïîëó÷åííûõ äëÿ äàííîé ïàðû ìóçûêàëü-íûõ ïðîèçâåäåíèé êîýôôèöèåíòîâ êîððåëÿöèè âû-áèðàåòñÿ ìàêñèìàëüíûé. Åñëè êîýôôèöèåíò êîððå-ëÿöèè áëèçîê ê åäèíèöå, òî ìîæíî ñ íåêîòîðîé äîñ-òîâåðíîñòüþ óòâåðæäàòü, ÷òî ïðåäñòàâëåííûé ïîëüçîâàòåëåì ôðàãìåíò ïðèñóòñòâóåò â ñðàâíèâàå-ìîì ôàéëå è äàííûé ôàéë ÿâëÿåòñÿ èñêîìûì. Åñëè êîýôôèöèåíò êîððåëÿöèè áëèçîê ê íóëþ èëè îòðè-öàòåëüíûé, òî ñðàâíèâàåìûå ôàéëû ñ÷èòàþòñÿ ðàç-íûìè.
Îñíîâíîé íåäîñòàòîê ïðåäëîæåííîãî ìåòîäà â òîì, ÷òî îí ñîâåðøåííî íå ìàñøòàáèðóåì, òàê êàê ñðàâíèâàåòñÿ ïîèñêîâûé çàïðîñ ïîëüçîâàòåëÿ ñ êàæäîé ìåëîäèåé â áàçå.
Ïî ýòîé ïðè÷èíå ñåé÷àñ ðàçðàáàòûâàåòñÿ àëãî-ðèòì, êîòîðûé ðàññìàòðèâàåò âðåìÿ-÷àñòîòíûå ìàññèâû êàê ðàçðÿæåííûå ìàòðèöû. Èñïîëüçóÿ ñóùåñòâóþùèå ñïîñîáû õðàíåíèÿ ðàçðÿæåííûõ ìàòðèö [3], âîçìîæíî ïåðåâåñòè äâóìåðíûé ìàñ-ñèâ çíà÷åíèé íàéäåííûõ íîò â âåêòîð-ñòðîêó. Äëÿ ïîèñêà âåêòîð-ñòðîêè ìîæíî èñïîëüçîâàòü ðåãóëÿð-íûå âûðàæåíèÿ èëè èíäåêñàöèþ ñòðîê.
ñèñòåìå MatLab 7 (R14). Èñïîëüçîâàëñÿ êîìïüþòåð AMD Athlon 1.6+, 1.5 Ãá ÎÇÓ.
4.1. Àëãîðèòì ñæàòèÿ òåñòîâûõ ñèãíàëîâ Äëÿ äåìîíñòðàöèè ðàáîòû àëãîðèòìà íèæå ïðèâîäÿò-ñÿ ðåçóëüòàòû îáðàáîòêè íåñêîëüêèõ òåñòîâûõ ôàé-ëîâ. Ôàéëû èìåþò îäíó ïðîñòóþ íîòíóþ ïîñëåäîâà-òåëüíîñòü (ôðàãìåíò ìóçûêàëüíîãî ïðîèçâåäåíèÿ
«×èæèê-Ïûæèê»), ñ òåì îòëè÷èåì, ÷òî îíà èñïîë-íÿëàñü â ðàçíûõ îêòàâàõ è íà ðàçíûõ èíñòðóìåíòàõ.
Áûëè âûÿâëåíû âñå ãàðìîíèêè îñíîâíûõ òîíîâ è îáåðòîíà (ðèñ. 6, 9).
Ïðè îïðåäåëåíèè îáåðòîíîâ âîçíèêëà ñèòóà-öèÿ, êîãäà âòîðûå ãàðìîíèêè èìåëè áîëüøóþ àìïëèòóäó, ÷åì îñíîâíûå òîíà. Ìîæíî âèäåòü,
÷òî ñ ýòîé çàäà÷åé àëãîðèòì ñïðàâèëñÿ è êîððåê-òíî ðàñïîçíàë èñòèííûå ÷àñòîòû.
 òàáë. 1 ïðåäñòàâëåíû ðåçóëüòàòû ñæàòèÿ òåñ-òîâûõ ôàéëîâ.
Èç äàííûõ â òàáëèöå ìîæíî ñäåëàòü âûâîä î âåñüìà çíà÷èòåëüíîé (~1000 ðàç) ñòåïåíè ñæàòèÿ ñèãíàëà, à òàêæå î òîì, ÷òî ðàçìåð xml-ôàéëà çàâèñèò îò îêòàâû, íà êîòîðîé ñûãðàíî ìóçûêàëü-íî ïðîèçâåäåíèå è ïðàêòè÷åñêè íå çàâèñèò îò ìóçûêàëüíîãî èíñòðóìåíòà.
Çàâèñèìîñòü îò îêòàâû îáóñëîâëåíà òåì, ÷òî ðàçìåð îêîí â îêîííîì ïðåîáðàçîâàíèè Ôóðüå, èñïîëüçóåìûõ äëÿ íèçêèõ ÷àñòîò, áîëüøå ðàçìåðà îêîí äëÿ âûñîêèõ ÷àñòîò. Ïîýòîìó êîëè÷åñòâî îêîí è, ñëåäîâàòåëüíî, êîëè÷åñòâî áàéò, ñîõðàíÿåìîå â xml-ôàéëå, äëÿ íèçêèõ ÷àñòîò ìåíüøå, ÷åì äëÿ âûñîêèõ.
Àëãîðèòì ñæàòèÿ óìåíüøàåò èçáûòî÷íîñòü çâó-êîâîãî ïðåäñòàâëåíèÿ èñõîäíîãî ñèãíàëà, îñòàâ-ëÿÿ òîëüêî «ãëàâíûé ñìûñë» ìóçûêàëüíîãî ïðîèç-âåäåíèÿ, ïîýòîìó ñæàòîå ïðåäñòàâëåíèå ìóçûêàëü-íûõ ïðîèçâåäåíèé, ñûãðàíìóçûêàëü-íûõ íà ðàçìóçûêàëü-íûõ èíñòðó-ìåíòàõ â îäíîé îêòàâå, íå äîëæíî ñèëüíî
ðàçëè-÷àòüñÿ. Ýòî ïðåäïîëîæåíèå ïîäòâåðæäàåò òîò ôàêò,
÷òî ðàçìåð xml-ôàéëîâ äëÿ ìóçûêàëüíûõ ïðîèçâå-äåíèé, ñûãðàííûõ â îäíîé òîíàëüíîñòè, ïðèìåð-íî îäèíàêîâ. Íåáîëüøèå ðàçëè÷èÿ â ðàçìåðàõ ôàéëîâ îáóñëîâëåíû êàê îñîáåííîñòüþ àëãîðèòìà óñòðàíåíèÿ èçáûòî÷íîñòè è âûõîäíîãî ôîðìàòà, òàê âîçìîæíî è îøèáêàìè, âîçíèêøèìè â ïðîöåññå ðàñ-ïîçíàâàíèÿ îñíîâíûõ ãàðìîíèê.
Òàáëèöà 1 Ðåçóëüòàòû ñæàòèÿ òåñòîâûõ ôàéëîâ
¹ Ìóçûêàëüíûé Îêòàâà Èñõîäíûé ðàçìåð, Ðàçìåð XML ôàéëà, Ðàçìåð ñæàòîãî ôàéëà
èíñòðóìåíò áàéò áàéò (àðõèâàòîð RAR), áàéò
1 ãèòàðà áîëüøàÿ 604816 2076 543
2 ïèàíèíî áîëüøàÿ 604816 1986 523
3 ñàêñîôîí áîëüøàÿ 604816 2107 606
4 ãèòàðà ïåðâàÿ 604816 2339 556
5 ïèàíèíî ïåðâàÿ 604816 2448 563
6 ñàêñîôîí ïåðâàÿ 604816 2588 665
7 ãèòàðà òðåòüÿ 604816 4039 709
8 ïèàíèíî òðåòüÿ 604816 4108 708
9 ñàêñîôîí òðåòüÿ 604816 3900 717
Çâó÷àíèå (äàæå òàêîãî ïðîñòîãî êàê «×èæèê-Ïû-æèê») âîñïðîèçâåäåííîãî ñèãíàëà ìàëî ïîõîæå íà çâó÷àíèå èñõîäíîãî ïðîèçâåäåíèÿ. Îñíîâíîå
îòëè-÷èå çàêëþ÷àåòñÿ â òîì, ÷òî çâó÷àò «÷èñòûå» çâóêîâûå ãàðìîíèêè, ñîâåðøåííî íå îêðàøåííûå «æèâûìè»
çâóêàìè, èçäàâàåìûìè íàñòîÿùèìè ìóçûêàëüíûìè èíñòðóìåíòàìè. Îäíàêî ìåëîäèÿ è òîíàëüíîñòü ïðî-èçâåäåíèÿ óëàâëèâàþòñÿ ëåãêî.
4.2. Àëãîðèòì ñæàòèÿ,
èñïîëüçóþùèé ðàçíûå ðàçìåðû îêîí
Ðàçíûå ðàçìåðû îêîí ìîãóò äàâàòü íåìíîãî îòëè÷à-þùóþñÿ ìåæäó ñîáîé âðåìåííóþ ñîñòàâëÿþùóþ íîò (ðèñ. 10).
Ïîýòîìó ðåêîìåíäóåòñÿ èñïîëüçîâàòü àëãîðèòì ñæàòèÿ ñ îäíèìè è òåìè æå ðàçìåðàìè îêîí äëÿ âñåõ ìóçûêàëüíûõ ïðîèçâåäåíèé, êàê èç áàçû, òàê è çàïðîñ ïîëüçîâàòåëÿ. Â äàííîé ðàáîòå â àëãî-ðèòìå ñæàòèÿ èñïîëüçóþòñÿ îêíà, îñíîâàííûå íà ñòåïåíè äâîéêè.
4.3. Àëãîðèòì ñæàòèÿ ìóçûêàëüíûõ ñèãíàëîâ Áîëåå íàãëÿäíî ðåçóëüòàò ðàáîòû àëãîðèòìà ñæàòèÿ âèäíî íà ðåàëüíûõ ìóçûêàëüíûõ ôàéëàõ â îòëè÷èå îò òåñòîâûõ ôàéëîâ, êîòîðûå ñîäåðæàò ïðîñòóþ ìîíîôîíè÷åñêóþ ìåëîäèþ. Ðåçóëüòàòû ñæàòèÿ ìó-çûêàëüíûõ ïðîèçâåäåíèé ïðåäñòàâëåíû â òàáë. 2.
Èç òàáëèöû âèäíî, ÷òî è äëÿ ìóçûêàëüíûõ ïðîèçâåäåíèé ñòåïåíü ñæàòèÿ ÿâëÿåòñÿ çíà÷èòåëü-íîé. Êîíå÷íûé ðàçìåð ñæàòîãî ôàéëà çàâèñèò îò íîòíîãî ñîñòàâà ìóçûêàëüíîãî ïðîèçâåäåíèÿ è íå çàâèñèò îò áèòðåéòà.
Âðåìÿ-÷àñòîòíûå ïðåäñòàâëåíèÿ ìóçûêàëüíîãî ïðîèçâåäåíèÿ «Bandit» (Peter Green), êîòîðûå ðàñ-ñ÷èòûâàëèñü èç mp3 ôàéëîâ ñ ðàçíûì áèòðåéòîì, ïðàêòè÷åñêè îäèíàêîâû (ðèñ. 11). Ýòî äîêàçûâàåò ïðåäïîëîæåíèå, âûñêàçàííîå â ï. 3.2, ÷òî ñòåïåíü ñæàòèÿ èñõîäíîãî ôàéëà íå ïîâëèÿåò íà ðàáîòó íè àëãîðèòìà ñæàòèÿ, íè àëãîðèòìà ïîèñêà.
Ýêñïåðèìåíò ïî ïîèñêó ìóçûêàëüíûõ ïðîèçâåäå-íèé, êîòîðûå èìåþò ðàçíûé áèòðåéò, ïðåäñòàâëåí íèæå â ï. 4.5.
4.4. Àëãîðèòì ïîèñêà. Ïåðâûé ýêñïåðèìåíò Áûëè ñãåíåðèðîâàíû ïðîèçâåäåíèÿ «×èæèê-ïûæèê»
è «Ìàëåíüêàÿ åëî÷êà», ñûãðàííûå íà ðàçíûõ ìóçû-êàëüíûõ èíñòðóìåíòàõ (ïèàíèíî, ñàêñîôîí è ãèòà-ðà) è â ðàçíûõ òîíàëüíîñòÿõ.
Äëÿ ïîèñêà ìóçûêàëüíûõ ïðîèçâåäåíèé áûëè âûáðàíû äâà ôàéëà «chizhikC5_piano.xml» è
«elochkaC2_sax.xml». Äàëåå áûë ðàññ÷èòàí êîýôôè-öèåíò êîððåëÿöèè ìåæäó äâóìåðíûìè ìàññèâàìè ïðåäñòàâëåííûõ ôàéëîâ è äâóìåðíûìè ìàññèâàìè êàæäîãî ìóçûêàëüíîãî ïðîèçâåäåíèÿ. Íàèáîëüøèå çíà÷åíèÿ êîýôôèöèåíòà êîððåëÿöèè ïðåäñòàâëåíû â òàáë. 3.
Èç òàáëèöû âèäíî, ÷òî çíà÷åíèå êîýôôèöèåí-òà êîððåëÿöèè äëÿ îäèíàêîâûõ ìóçûêàëüíûõ ïðî-èçâåäåíèé ïðèáëèçèòåëüíî ðàâåí 0.60.8, à äëÿ ðàçíûõ ïðîèçâåäåíèé îêîëî 0.10.2.
4.5. Àëãîðèòì ïîèñêà. Âòîðîé ýêñïåðèìåíò.
Ôàéë èñõîäíîãî ìóçûêàëüíîãî ïðîèçâåäåíèÿ
«Bandit» (Peter Green) â ôîðìàòå wav áûë êîíâåð-òèðîâàí â ôàéëû ôîðìàòà mp3 (êîäåê Lame 3.96) ñ áèòðåéòàìè: 32, 64, 128, 192, 256, 320 êáèò/ñ. Èç ôàéëà, çàêîäèðîâàííîãî ñ áèòðåéòîì 32, áûë âû-ðåçàí êóñîê, êîòîðûé èñïîëüçîâàëñÿ äëÿ ïîèñêà ìóçûêàëüíûõ ïðîèçâåäåíèé. Êîýôôèöèåíò êîððå-ëÿöèè ìåæäó ïîèñêîâûì çàïðîñîì è ôàéëàìè, çàêîäèðîâàííûìè ñ ðàçíûì êà÷åñòâîì, ïðåäñòàâ-ëåíû âî âòîðîì ñòîëáöå òàáë. 4.
Çàòåì â àóäèî ñèãíàë îòðûâêà ñëó÷àéíûì îá-ðàçîì áûëè äîáàâëåíû îøèáêè (ïðè çâó÷àíèè ôàéëà ñëûøåí ïîòðåñêèâàíèå è ùåë÷êè). Âðåìÿ-÷àñòîòíîå ïðåäñòàâëåíèå èñõîäíîãî ñèãíàëà è ñèãíàëà ñ îøèá-êàìè ïðåäñòàâëåíû íà ðèñ. 12.
Èç ðèñóíêà âèäíî, ÷òî, êàê è ãîâîðèëîñü â ï. 3.2, âðåìÿ-÷àñòîòíûå ïðåäñòàâëåíèÿ ñèãíàëîâ ïðàêòè÷åñ-Ðèñ. 10. Ñæàòèå ìóçûêàëüíîãî ïðîèçâåäåíèÿ
àëãîðèòìîì, èñïîëüçóþùèì ðàçíûå îêíà: îêíà, îñíîâàííûå íà ñòåïåíè äâîéêè (ââåðõó), è îêíà,
îñíîâàííûå íà çîëîòîì ñå÷åíèè (âíèçó)
Ðèñ. 11. Âðåìÿ-÷àñòîòíîå ïðåäñòàâëåíèå ìóçûêàëü-íîãî ïðîèçâåäåíèÿ ñæàòîãî ñ ðàçíûìè áèòðåòàìè:
32 êáèò (ââåðõó), 320 êáèò (âíèçó)
Òàáëèöà 2 Ðåçóëüòàòû ñæàòèÿ ìóçûêàëüíûõ ôàéëîâ
Íàçâàíèå Èñõîäíûé ðàçìåð, Ðàçìåð Ðàçìåð ñæàòîãî ôàéëà
áàéò XML ôàéëà, (àðõèâàòîð RAR), áàéò áàéò
Bandit-PeterGreen.xml (áèòðåéò 32) 15443756 99383 8480
Bandit-PeterGreen.xml (áèòðåéò 64) 15452972 95558 8251
Bandit-PeterGreen.xml (áèòðåéò 128) 15455276 96197 8287
Bandit-PeterGreen.xml (áèòðåéò 192) 1545758095161 8228
Bandit-PeterGreen.xml (áèòðåéò 256) 1545758095059 8236
Bandit-PeterGreen.xml (áèòðåéò 320) 15457580 95175 8264
Summertime Charlie Parker & Chet Baker.xml 14856236 91289 8182
Summertime Janis Joplin & Jimi Hendrix.xml 23457068 160457 13389
No woman no cry Bob Marley.xml 21524012 123777 10365
Òàáëèöà 4 Êîýôôèöèåíò êîððåëÿöèè ìóçûêàëüíûõ
ïðîèçâåäåíèé ñ ðàçíûìè áèòðåéòàìè Ìóç. ïðîèçâåäåíèå Îòðûâîê «Bandit», Îòðûâîê «Bandit»
«Bandit, áèòðåéò, áèòðåéò 32 kbps ñ îøèáêàìè,
kbps áèòðåéò 32 kbps
32 0.683209 0.651107
64 0.717580 0.692171
128 0.715310 0.677575
192 0.719872 0.681909
256 0.719872 0.681909
3200.723856 0.685952
êè îäèíàêîâû. Òàê êàê ðàçëè÷èÿ íåçíà÷èòåëüíû, òî ìîæíî ïðåäïîëîæèòü, ÷òî è êîýôôèöèåíò êîððåëÿ-öèè íå äîëæåí ñèëüíî îòëè÷àòüñÿ. Ýòî ïðåäïîëîæå-íèå ïîäòâåðæäàåòñÿ â òðåòüåì ñòîëáöå òàáë. 4.
Òàêèì îáðàçîì, êîýôôèöèåíò êîððåëÿöèè, ðàñ-ñ÷èòàííûé ïî ôðàãìåíòàì äâóõ ìóçûêàëüíûõ ïðîèç-âåäåíèé, ñëàáî çàâèñèò îò èõ êà÷åñòâà çàïèñè. Ïî-ýòîìó ÿâëÿåòñÿ âîçìîæíûì èñêàòü çâóêîçàïèñè õî-ðîøåãî êà÷åñòâà ïî îòðûâêàìè, èìåþùèì íèçêèé áèòðåéò.
Òàáëèöà 5 Êîýôôèöèåíò êîððåëÿöèè ðàçíûõ ìóçûêàëüíûõ
ïðîèçâåäåíèé ñ midi ôàéëîì
Íàçâàíèå Summer time.mid
«Summer time» (Charlie Parker
è Chet Baker) 0.481157
«Summer time» (Janis Joplin
è Jimi Hendrix) 0.363534
«No woman no cry» (Bob Marley) 0.419773
«Bandit» (Peter Green) 0.363534
4.6. Àëãîðèòì ïîèñêà. Òðåòèé ýêñïåðèìåíò  êà÷åñòâå ìóçûêàëüíîãî çàïðîñà èñïîëüçîâàëîñü ìóçûêàëüíîå ïðîèçâåäåíèå «Summer time» (Äæ. Ãåð-øâèí) â ôîðìàòå midi, ïîäîáðàííîå íà ñëóõ. Îíî ñðàâíèâàëîñü ñ ðàçëè÷íûìè ìóçûêàëüíûìè ïðîèçâå-äåíèÿìè. Íàèáîëüøèå çíà÷åíèÿ êîýôôèöèåíòà êîð-ðåëÿöèè ïðåäñòàâëåíû â òàáë. 5.
Èç òàáëèöû âèäíî, ÷òî äàííûé âèä ïîèñêà ïîêà-çûâàåò íå ëó÷øèå ðåçóëüòàòû ñóùåñòâóþò îøèáêè ïåðâîãî è âòîðîãî ðîäà. Ñâÿçàíî ýòî ñ òåì, ÷òî:
ôàéë midi ïîäáèðàëñÿ ïî ñëóõó, è âîçìîæíû îøèáêè ïðè ïîäáîðå, êàê â îïðåäåëåíèè íåêîòîðûõ íîò, òàê è â ðàçìåðàõ âðåìåíè èõ çâó÷àíèÿ. Ðàçíûé òåìï çâó÷àíèÿ ìîæåò ïðèâåñòè ê íåïðàâèëüíîìó ïå-ðåêðûòèþ äâóìåðíûõ âðåìÿ-÷àñòîòíûõ ìàññèâîâ, ÷òî ïîâëèÿëî íà çíà÷åíèå êîýôôèöèåíòà êîððåëÿöèè;
ôàéë midi ïðåäñòàâëÿåò ñîáîé ìîíîôîíè÷åñêóþ ìåëîäèþ, â òî âðåìÿ êàê â áàçå äàííûõ ñîäåðæàòñÿ ïîëèôîíè÷åñêèå ìåëîäèè ýòî îáúÿñíÿåò íèçêèå çíà÷åíèÿ êîýôôèöèåíòà êîððåëÿöèè;
ïðåäñòàâëåííûå ìóçûêàëüíûå ïðîèçâåäåíèÿ
«Summer time» õîòü è èìåþò ìåëîäèþ îäíîãî ïðîèç-âåäåíèÿ, íî îíè ÿâëÿþòñÿ ðàçíûìè àðàíæèðîâêàìè, è êàæäûé èñïîëíèòåëü ñûãðàë åå â ñâîåì æàíðå. Ïî-ýòîìó òàêæå çíà÷åíèÿ êîýôôèöèåíòîâ êîððåëÿöèè îòëè÷àþòñÿ.
5. Çàêëþ÷åíèå
Ïîèñê ìóçûêàëüíûõ ïðîèçâåäåíèé ïî êîíòåíòó ÿâëÿåòñÿ äîâîëüíî ñëîæíîé çàäà÷åé. Îñíîâó òàêî-ãî àëòàêî-ãîðèòìà äîëæåí ñîñòàâëÿòü àëòàêî-ãîðèòì, ñïî-ñîáíûé ñóùåñòâåííî óïðîñòèòü èñõîäíûå äàííûå.
Äëÿ ýòèõ öåëåé íà áàçå âðåìÿ-÷àñòîòíîãî ïðåä-ñòàâëåíèÿ ìóçûêàëüíîãî ñèãíàëà áûë ïðåäëîæåí àë-Ðèñ. 12. Âðåìÿ-÷àñòîòíîå ïðåäñòàâëåíèå èñõîäíîãî
ñèãíàëà (ââåðõó) è ñèãíàëà ñ îøèáêàìè (âíèçó) Òàáëèöà 3 Êîýôôèöèåíò êîððåëÿöèè ðàçíûõ ìóçûêàëüíûõ
ïðîèçâåäåíèé
Íàçâàíèå chizhikC5_piano elochkaC2_sax
chizhikC2_sax 0.6096900.115447
chizhikC2_piano 0.528820 0.199392
chizhikC2_guit 0.705981 0.148841
chizhikC3_sax 0.703532 0.128974
chizhikC3_piano 0.693751 0.138741
chizhikC3_guit 0.727062 0.139847
chizhikC5_sax 0.891586 0.114998
chizhikC5_piano 1 0.104455
chizhikC5_guit 0.850243 0.108322
elochkaC2_sax 0.090966 0.634058
elochkaC2_piano 0.110336 0.676066
elochkaC2_guit 0.104455 1
elochkaC3_sax 0.228477 0.677049
elochkaC3_piano 0.120298 0.805887
elochkaC3_guit 0.386786 0.763768
elochkaC5_sax 0.119258 0.614792
elochkaC5_piano 0.120328 0.653941
elochkaC5_guit 0.128737 0.632819
ãîðèòì, âûÿâëÿþùèé ìóçûêàëüíûé êîíòåíò. Ðàçðà-áîòàííûé àëãîðèòì ïîêàçàë âïå÷àòëÿþùóþ ñòåïåíü ñæàòèÿ íà ïðèâåäåííûõ ïðèìåðàõ. Ýòî ñòàëî âîçìîæ-íûì áëàãîäàðÿ «î÷èñòêå» ìóçûêàëüíîãî ñèãíàëà îò áîëüøîãî êîëè÷åñòâà âòîðîñòåïåííûõ ïàðàìåòðîâ, ñ ñîõðàíåíèåì òîëüêî «ãëàâíîãî ñìûñëà» ìóçûêàëüíî-ãî ïðîèçâåäåíèÿ.
Íà îñíîâå óïðîùåííîãî ïðåäñòàâëåíèÿ ñæàòî-ãî àóäèî ñèãíàëà áûë ðàçðàáîòàí àëñæàòî-ãîðèòì ïðÿìî-ãî ïîèñêà ìóçûêàëüíîïðÿìî-ãî ïðîèçâåäåíèÿ ïî åïðÿìî-ãî êîí-òåíòó.
Âðåìÿ-÷àñòîòíîå ïðåäñòàâëåíèå ìóçûêàëüíîãî ñèãíàëà äàåò âîçìîæíîñòü ðàñïîçíàâàíèÿ íûõ ïðîèçâåäåíèé è ñðàâíåíèÿ ðàçëè÷íûõ ìóçûêàëü-íûõ ôàéëîâ ïî íîòíîìó ñîñòàâó, íåçàâèñèìî îò òî-íàëüíîñòè è ìóçûêàëüíûõ èíñòðóìåíòîâ, êîòîðûå áûëè çàäåéñòâîâàíû.
Îäíàêî íà äàííûé ìîìåíò àëãîðèòì ïîèñêà íå ìîæåò ïðèìåíÿòüñÿ â ñåòè Èíòåðíåò, â ñâÿçè ñ âðåìåííûìè çàòðàòàìè ïðè ïîèñêå äàííûõ â áîëü-øèõ áàçàõ ìóçûêàëüíûõ ïðîèçâåäåíèé.
Äàëüíåéøàÿ ðàáîòà ïî ìîäåðíèçàöèè àëãîðèò-ìà ïîçâîëèò ïðèìåíèòü åãî â ðåæèìå ðåàëüíîãî âðåìåíè.
6. Ëèòåðàòóðà
[1] Äüÿêîíîâ Â. Ï. Âåéâëåòû. Îò òåîðèè ê ïðàêòèêå. Ì.:
Ñîëîí-Ð, 2002. 448 ñ.
[2] Ðàáèíîâè÷ Å. Â., Øåõèðåâ À. Â. Âðåìÿ-÷àñòîòíûé àëãî-ðèòì ñæàòèÿ çâóêîâûõ ñèãíàëîâ // Ìàòåðèàëû VIII ìåæäóíàð. êîíô. àêòóàëüíûå ïðîáëåìû ýëåêòðîííîãî ïðèáîðîñòðîåíèÿ ÀÏÝÏ-2006. 2006. ¹ 6. Ñ. 124127.
[3] Òüþàðñîí Ð. Ðàçðåæåííûå ìàòðèöû. Ì.: Ìèð, 1977. 190 ñ.
[4] Birmingham W., Dannenberg R., Wakefield G. et al. Musart:
Music Retrieval Via Aural Queries [Electronic resource]. 2001. Mode of access: http://ismir2001.ismir.net/pdf/
birmingham.pdf
[5] Clausen M., Engelbrecht R., Meyer D., Schmitz J. PROMS: a web-based tool for searching in polyphonic music //ISMIR Proceedings. 2000.
[6] Glossary of terms used in time series analysis of cardiovascular data [Electronic resource]. 2000. Mode of access: http://www.cbi.dongnocchi.it/glossary/
ChoiWilliams.html
[7] Glossary of terms used in time series analysis of cardiovascular data [Electronic resource]. 2000. Mode of access: http://
www.cbi.dongnocchi.it/glossary/WignerVille.html
[8] Graham A. Stephen. String Search [Electronic resource]. 1992. Mode of access: http://nospam.kiev.ua/pub/docs/
developer/algo/Stephen-92
[9] Kornstadt A. Themefinder: A web-based melodic search tool.
In W. Hewlett and E. Selfridge-Field, editors //Melodic Similarity: Concepts, Procedures, and Applications, Computing in Musicology. 1998. Vol. 11.
[10] Rauber A., Pampalk E., Merkl D. The SOM-enhaced jukebox: Organization and visualization of music collections based on perceptual models // Journal of New Music Research. 2003. Vol. 32(2). P. 193210.
[11] Typke R., Veltkamp R., and Wiering F. Searching notated polyphonic music using transportation distances //
Proceedings of the ACM Multimedia Conference. 2004.
P. 128135.
[12] Typke R., Wiering F., Veltkamp R. A Survey of Music Information Retrieval Systems //Proceedings of the Fifth International Conference on Music Information Retrieval.
2005. P. 153160.
[13] Veltkamp R., Wiering F., Typke R. Content based music retrieval [Electronic resource]. Mode of access: http://
www.cs.uu.nl/docs/vakken/mr/coursematerial/background-music.pdf
Contracted representation music signals for music information retrieval
Eugene V. Rabinovich, Andrey V. Shekhirev Audio data compression algorithm based on time-frequency presentation of music signal is offered. The application of contracted representation for retrieval of musical compositions is presented.
Îðãàíèçàöèÿ ïîèñêà â òåêñòîâûõ êîëëåêöèÿõ íà ðóññêîì ÿçûêå XVIII âåêà
Â. Ä. Ñîëîâüåâ
ÊÃÓ, ÈÏÈ ÀÍ ÐÒ [email protected]
È. Ñ. Ìàðãóëèñ
ÈÏÈ ÀÍ ÐÒ, ÖÈÒ ÊÃÓ [email protected]
Àííîòàöèÿ
Èññëåäîâàíèå ñòàðîðóññêèõ òåêñòîâ ñóùåñòâåííî îáëåã÷à-åòñÿ ïðè èñïîëüçîâàíèè èõ ýëåêòðîííûõ âåðñèé. Ìàòåðèà-ëû ñòàíîâÿòñÿ äîñòóïíûìè äëÿ èññëåäîâàòåëåé íå òîëüêî èç êðóïíûõ óíèâåðñèòåòñêèõ öåíòðîâ. Îöèôðîâêà ñòàðèí-íûõ òåêñòîâ âåäåòñÿ êðóïíåéøèìè áèáëèîòåêàìè Ìèðà, â òîì ÷èñëå Ðîññèéñêîé ãîñóäàðñòâåííîé áèáëèîòåêîé. Àê-òóàëüíîñòü è ðàçëè÷íûå àñïåêòû ïðîáëåìû îöèôðîâêè íå-äàâíî áûëè ïîäðîáíî îáñóæäåíû â [41].
Èññëåäîâàíèå ñòàðîðóññêèõ òåêñòîâ â ïåðâóþ î÷åðåäü òðåáóåò ðàçðàáîòêè ìîðôîëîãè÷åñêèõ àíàëèçàòîðîâ è ñî-çäàíèÿ ïîèñêîâûõ ïðîãðàìì, îðèåíòèðîâàííûõ íà ñëîâî-èçìåíåíèå â ñòàðîðóññêîì ÿçûêå. Äëÿ ðåøåíèÿ ïðîáëåìû íàèáîëåå ïåðñïåêòèâíîé âûãëÿäèò èäåÿ àäàïòàöèè ñîâðå-ìåííûõ àëãîðèòìîâ ìîðôîëîãè÷åñêîãî àíàëèçà è ïîèñêà ê ñòàðîðóññêîìó ÿçûêó ñ èñïîëüçîâàíèåì ýëåêòðîííîãî ñëî-âàðÿ XVIII â.
 õîäå âûïîëíåíèÿ ïðîåêòà âïåðâûå ñîçäàíû ïðÿ-ìîé è îáðàòíûé ýëåêòðîííûå ñëîâàðè XVIII âåêà. Ðàç-ðàáîòàíà ïðîãðàììà äëÿ ëîêàëüíîãî ïîèñêà ñëîâ â ñòà-ðèííîé îðôîãðàôèè ñ ó÷åòîì ñëîâîèçìåíåíèÿ äëÿ ðóñ-ñêîãî ÿçûêà XVIII â. Ïðîãðàììà ïðåäñòàâëÿåò ñîáîé èíñòàëëèðóåìóþ íàäñòðîéêó äëÿ MS Word.
1. Ââåäåíèå
1.1. Öåëè èññëåäîâàíèÿ
Öåëüþ èññëåäîâàíèÿ ÿâëÿåòñÿ ñîçäàíèå ïðîãðàìì-íûõ ñðåäñòâ äëÿ ðàáîòû ñ òåêñòàìè íà ñòàðîðóñ-ñêîì ÿçûêå â îðèãèíàëüíîé îðôîãðàôèè.  ïåðñ-ïåêòèâå ýòî ñïîñîáñòâóåò ðàçâèòèþ ýâîëþöèîí-íîé è èñòîðè÷åñêîé ëèíãâèñòèêè (â ïåðâóþ î÷å-ðåäü îòíîñèòåëüíî ðóññêîãî ÿçûêà XVIII â.), êîð-ïóñíûõ ìåòîäîâ èññëåäîâàíèé.
 îñíîâå çàäà÷è ñîçäàíèÿ ïîèñêîâûõ ñðåäñòâ äëÿ ðàáîòû ñ òåêñòàìè â ñòàðèííîé îðôîãðàôèè ëå-æàò òðè îñíîâíûõ ïðîáëåìû: êîäèðîâêà, ìîðôîëî-ãè÷åñêèé àíàëèç è èíòåðôåéñ.
1.2. Îáçîð ñïåöèàëèçèðîâàííûõ ïðîãðàììíûõ ñðåäñòâ äëÿ ðàáîòû ñ ðóññêîÿçû÷íûìè
äîêóìåíòàìè â ñòàðèííîé îðôîãðàôèè.
Ïðîáëåìà êîäèðîâîê
Ñóùåñòâóþò ÷åòûðå îñíîâíûõ èçâåñòíûõ ïðîãðàìì-íûõ ñðåäñòâà äëÿ ðàáîòû ñ òåêñòàìè íà ðóññêîì ÿçûêå â ñòàðèííîé îðôîãðàôèè. Èõ ïðåäñòàâëÿþò ýòèìîëîãè÷åñêèé ïðîåêò STARLing, ïðîåêò ïî ðàç-ðàáîòêå øðèôòîâ «Èðìîëîãèé», èíôîðìàöèîííî-ïîèñêîâàÿ ñèñòåìà (ÈÏÑ) «Ìàíóñêðèïò» è äðåâ-íåÿçû÷íûé òåêñòîâûé ïðîöåññîð «Êíèæèöà». Íèæå äàííûå ðàçðàáîòêè ðàññìîòðåíû áîëåå ïîäðîáíî.
Ïðîãðàììà STARLing [32] ïðåäñòàâëÿåò ñîáîé ëèíãâèñòè÷åñêóþ ÑÓÁÄ, è â êà÷åñòâå îñíîâíîãî ïðåäíàçíà÷åíèÿ èìååò ðàáîòó ñ ìíîãîÿçû÷íûìè
ýòè-ìîëîãè÷åñêèìè áàçàìè äàííûõ. Ïîñëåäíÿÿ âåðñèÿ ïðîãðàììû (Star4win v. 2.00, September 2004) èñïîëü-çóåò êîäèðîâêó Unicode è èìååò âîçìîæíîñòü ðàáî-òû ñ ñèìâîëàìè ðóññêîãî ÿçûêà XVIII â., îäíàêî â öåëîì îíà íå îðèåíòèðîâàíà íà ñòàðîðóññêèé ÿçûê.
STARLing ðåøàåò òàêèå çàäà÷è, êàê ïðåîáðàçîâàíèå ïèñüìåííîãî òåêñòà â ìíîãîóðîâíåâóþ òåêñòîâóþ áàçó äàííûõ (ÒÁÄ); ðàçìåòêà ÒÁÄ (àâòîìàòè÷åñêàÿ è ïîëóàâòîìàòè÷åñêàÿ ñ èíòåððåäàêòèðîâàíèåì); ñî-çäàíèå è êîððåêòèðîâêà ñëîâàðíûõ ÁÄ (ñ îïîðîé íà âíåøíèå èñòî÷íèêè).
Ïðîãðàììà STARLing èìååò âîçìîæíîñòü êîíâåð-òèðîâàíèÿ ôàéëîâ â ôîðìàòû RTF è HTML, íî íå íåïîñðåäñòâåííîé ðàáîòû ñ äàííûìè ôàéëàìè.
STARLing òðåáóåò îñâîåíèÿ ñïåöèôè÷åñêîãî èíòåð-ôåéñà è íåêîòîðûõ íàâûêîâ ïðîãðàììèðîâàíèÿ äëÿ øèðîêîãî èñïîëüçîâàíèÿ ïðîãðàììû.
Òðè äðóãèõ ïðîåêòà îðèåíòèðîâàíû íà äðåâíå-ðóññêèé ÿçûê (äî XVIII â.).  êîäèðîâêå Unicode, ÿâëÿþùåéñÿ â íàñòîÿùåå âðåìÿ ñòàíäàðòîì äå-ôàêòî, îòñóòñòâóþò ìíîãèå ñèìâîëû äðåâíåðóñ-ñêîãî ÿçûêà. Ýòî çàñòàâëÿåò ðàçðàáîò÷èêîâ ïðèáå-ãàòü ê èñïîëüçîâàíèþ íåñòàíäàðòíûõ êîäèðîâîê,
÷òî âûçûâàåò ïðîáëåìû ñîâìåñòèìîñòè.
Ïðîãðàììà «Èðìîëîãèé» [11] ïîçâîëÿåò ñîçäà-âàòü è ðåäàêòèðîñîçäà-âàòü äðåâíåðóññêèå òåêñòû. Îíà ðåàëèçîâàíà â êà÷åñòâå íàäñòðîéêè-ðàñøèðåíèÿ äëÿ MS Word. Ïðîãðàììà «Èðìîëîãèé» áàçèðóåòñÿ íà íåñòàíäàðòíîé ìóëüòèøðèôòîâîé êîäèðîâî÷íîé ñèñòåìå Irmologion (èñïîëüçóþùåé äî 13 øðèô-òîâ), ÷òî ïðèâîäèò ê íåñîâìåñòèìîñòè ñî ñòàíäàð-òíûìè êîäèðîâêàìè. Âñòðîåíà âîçìîæíîñòü êîí-âåðòèðîâàíèÿ òîëüêî â äâå àëüòåðíàòèâíûå êîäè-ðîâêè äëÿ ñòàðîðóññêîãî ÿçûêà: UCS8 è HIP.
Èíòåðôåéñ òðåáóåò ÷àñòîãî ïåðåêëþ÷åíèÿ ñ îäíî-ãî øðèôòà íà äðóîäíî-ãîé.
ÈÏÑ «Ìàíóñêðèïò» [17] òàêæå îðèåíòèðîâàíà íà ðàáîòó ñ áîëåå äðåâíèìè òåêñòàìè è èñïîëüçóåò ñîá-ñòâåííóþ ìóëüòèøðèôòîâóþ êîäèðîâî÷íóþ ñèñòå-ìó. Âàæíûì êîìïîíåíòîì ÈÏÑ «Ìàíóñêðèïò» ÿâ-ëÿåòñÿ ñïåöèàëüíî ñîçäàííûé äëÿ íåãî ðåäàêòîð äðåâíèõ òåêñòîâ OldEd.  íåì îòñóòñòâóåò âîçìîæ-íîñòü íåïîñðåäñòâåííîé ðàáîòû ñ ôàéëàìè ðàñïðî-ñòðàíåííûõ ôîðìàòîâ. Ïðîãðàììà òðåáóåò îñâîåíèÿ ñïåöèôè÷åñêîãî èíòåðôåéñà.
Äðåâíåÿçû÷íûé òåêñòîâûé ïðîöåññîð «Êíèæè-öà» òàêæå èñïîëüçóåò ñîáñòâåííûé ôîðìàò äàí-íûõ. Îí íåñîâìåñòèì ñ äðóãèìè êîäèðîâêàìè, âîçìîæíîñòü êîíâåðòèðîâàíèÿ îòñóòñòâóåò.  ñâÿ-çè ñ ýòèì äàííûé ñàìîñòîÿòåëüíûé ïðîåêò áûë ïðè-îñòàíîâëåí, ïðîãðàììà íå ìîäåðíèçèðîâàëàñü, ñàéò ïåðåñòàë îáíîâëÿòüñÿ â 1999 ã. è áûë çàêðûò.
Íåñìîòðÿ íà òî, ÷òî ìíîæåñòâî ñèìâîëîâ,
èñïîëü-çóåìîå â àëüòåðíàòèâíûõ êîäèðîâêàõ äëÿ äðåâíåðóñ-ñêîãî ÿçûêà (äî XVIII â.), äîñòàòî÷íî äëÿ ïå÷àòè òåê-ñòîâ XVIII â. â îðèãèíàëüíîé îðôîãðàôèè, èñïîëü-çîâàòü àëüòåðíàòèâíûå êîäèðîâêè äëÿ ïå÷àòè òåêñòîâ XVIII â. íå öåëåñîîáðàçíî ïî äâóì ïðè÷èíàì. ïåð-âûõ, ýòî ïðèâîäèò ê íåñîâìåñòèìîñòè êîäèðîâîê. Âî-âòîðûõ, íå èñêëþ÷åíî äàëüíåéøåå ðàñøèðåíèå êî-äèðîâêè Unicode äëÿ äðåâíåðóññêîãî è äðåâíåñëàâÿí-ñêèõ ÿçûêîâ, ïîýòîìó áîëåå âåðîÿòíî, ÷òî ïðè ñîçäà-íèè ýëåêòðîííûõ êîðïóñîâ ñòàðèííûõ òåêñòîâ äðåâ-íåðóññêèå òåêñòû, íàáðàííûå â àëüòåðíàòèâíûõ êî-äèðîâêàõ, ïðèäåòñÿ êîíâåðòèðîâàòü â Unicode, ÷åì ñòàðîðóññêèå (XVIIIXIX ââ.) â êàêóþ-ëèáî íå-ñòàíäàðòíóþ êîäèðîâêó äëÿ äðåâíåðóññêèõ òåêñòîâ.
 ðàìêàõ êîëëåêòèâà ðàíåå áûëà ïðîèçâåäåíà ðàáîòà íàä ñîçäàíèåì ïðèíöèïîâ ïîïîëíåíèÿ Unicode äëÿ äðåâíåðóññêèõ è äðåâíåñëàâÿíñêèõ àçáóê [18]. Äàëü-íåéøèì ïðîäâèæåíèåì ïðîåêòà çàíèìàåòñÿ àññîöè-àöèÿ «Ýëåêòðîííûå èçäàíèÿ/ïðåäñòàâëåíèÿ ñëàâÿí-ñêèõ ðóêîïèñåé» [31], êîòîðàÿ èìåíóåòñÿ òàêæå ñî-îáùåñòâîì «Ïèñüìåííîå íàñëåäèå».
Îñîáåííîñòè ñòàðèííûõ äîêóìåíòîâ (èçìåíåíèå öâåòà áóìàãè, ïÿòíà, ìåõàíè÷åñêèå ïîâðåæäåíèÿ ëèñòîâ, ðèñê ïîð÷è äîêóìåíòîâ ïðè ñêàíèðîâàíèè, âûöâåòàíèå êðàñîê) âûçûâàþò çàòðóäíåíèÿ äëÿ ðàñ-ïîçíàâàíèÿ è ñîçäàíèÿ òåêñòîâûõ êîëëåêöèé â ñòà-ðîðóññêîé îðôîãðàôèè. Îäíàêî â íàñòîÿùåå âðåìÿ Èíòåðíåò ðåãóëÿðíî ïîïîëíÿåòñÿ òàêèìè òåêñòàìè [10, 9, 22], ðåøàþòñÿ ïðîáëåìû ðàñïîçíàâàíèÿ [38].
 ðàìêàõ êîëëåêòèâà ðàíåå áûëè ñîçäàíû ìàêðîñû äëÿ ÷àñòè÷íîé àâòîìàòè÷åñêîé êîððåêöèè òåêñòîâ â îðèãèíàëüíîé îðôîãðàôèè XVIII â., ðàñïîçíàí-íûõ ïðè ïîìîùè ïðîãðàììû ABBYY FineReader àëãîðèòìàìè ðàñïîçíàâàíèÿ ñ îáó÷åíèåì è áåç
îáó-÷åíèÿ. Ýòî óïðîùàåò ñîçäàíèå êîëëåêöèé è êîðïó-ñîâ òåêñòîâ. Òàêæå êîëëåêòèâîì áûëà ïðîèçâåäåíà êëàññèôèêàöèÿ îøèáîê ðàñïîçíàâàíèÿ, ïîçâîëÿþ-ùàÿ êîððåêòíî ïîäáèðàòü ñëîâà äëÿ çàìåíû â íå-êà÷åñòâåííî ðàñïîçíàííûõ òåêñòàõ, è áûëè óñòà-íîâëåíû ñòàòèñòè÷åñêèå îñîáåííîñòè, òàêòè÷åñêè âàæíûå äëÿ ïîâûøåíèÿ êà÷åñòâà ðàñïîçíàâàíèÿ ñòàðîðóññêèõ òåêñòîâ.
Ìîæíî ïðåäïîëîæèòü, ÷òî ñî âðåìåíåì ìíîãèå ñîõðàíèâøèåñÿ ñòàðèííûå äîêóìåíòû áóäóò ïðåä-ñòàâëåíû â ýëåêòðîííîì âèäå â òåêñòîâîì ôîðìà-òå äëÿ èññëåäîâàíèé. Íà ôèëîëîãè÷åñêèõ ñàéòàõ (íàïðèìåð [39, 21, 28]), ôîðóìàõ (íàïðèìåð, [14]) è ñàéòàõ ïî êóëüòóðîâåäåíèþ (íàïðèìåð, [37]), à òàêæå â íåêîòîðûõ ýíöèêëîïåäè÷åñêèõ ñòàòüÿõ (ïðè-íàäëåæàùèõ, íàïðèìåð, ýíöèêëîïåäèè «Âèêèïå-äèÿ» [36]) ìíîãèå öèòàòû ïðèâîäÿòñÿ â ñòàðèííîé îðôîãðàôèè. Êðîìå òîãî, â ñåòè Èíòåðíåò èìååò-ñÿ ðÿä ñîâðåìåííûõ òåêñòîâ ñ ýëåìåíòàìè ñòàðèí-íîé îðôîãðàôèè. Ê íèì îòíîñÿòñÿ ñîâðåìåííûå öåðêîâíûå òåêñòû (ïðàâîñëàâíûå, ñòàðîîáðÿä÷åñ-êèå, íåòðàäèöèîííûå), ïóáëèêàöèè êîììåð÷åñêèõ èçäàòåëüñòâ, ñïåöèàëèçèðóþùèõñÿ íà ðåëèãèîçíîé ëèòåðàòóðå (íàïðèìåð, [8]), ðÿä ôèëîñîôñêèõ, ñà-òèðè÷åñêèõ, ïóáëèöèñòè÷åñêèõ è äðóãèõ ïðîèçâåäå-íèé. Ýëåìåíòû îðôîãðàôèè XVIII â. èñïîëüçóþòñÿ êàê âíóòðåííèé ÿçûê â èíòåðíåò-ñîîáùåñòâàõ è áëî-ãàõ, ïîñâÿùåííûõ èñòîðè÷åñêîé è ëèòåðàòóðíîé òå-ìàòèêå, ôèëîëîãèè. Ñïåöèàëèñòû è ëþáèòåëè çàèí-òåðåñîâàíû â èñïîëüçîâàíèè êà÷åñòâåííîãî ïîèñêà
äîêóìåíòîâ â îðôîãðàôèè XVIII â., äàííàÿ çàäà÷à ÿâëÿåòñÿ â íàñòîÿùåå âðåìÿ àêòóàëüíîé [10,9].
Äëÿ òåêñòîâ XVIII â. èñïîëüçîâàíèå êîäèðîâêè Unicode òåðÿåò ñìûñë ëèøü â òåõ ñëó÷àÿõ, êîãäà òåêñò íàáèðàåòñÿ èñêëþ÷èòåëüíî äëÿ êîíêðåòíîãî ïå÷àòíîãî, íåýëåêòðîííîãî èçäàíèÿ òîãäà íè êîäèðîâêà, íè ôîðìàò íå èìåþò çíà÷åíèÿ.  ýòîì ñëó÷àå ïå÷àòü ìîæåò ïðîèçâîäèòüñÿ äàæå èç ãðà-ôè÷åñêîãî ôàéëà, îäíàêî äëÿ êà÷åñòâåííûõ (ñòà-òèñòè÷åñêèõ è ïðî÷èõ) èññëåäîâàíèé ñ ïðèìåíå-íèåì êîìïüþòåðíûõ òåõíîëîãèé íåîáõîäèìî èñ-ïîëüçîâàòü òåêñòîâûé ôîðìàò äàííûõ.
Òàêèì îáðàçîì, âûáîð êîäèðîâêè äëÿ ðàáîòû ñ òåêñòàìè XVIII â. îïðåäåëåííî îñòàíàâëèâàåòñÿ íà Unicode.
1.3. Ïîèñê äëÿ ðóññêîÿçû÷íûõ òåêñòîâ â îðèãèíàëüíîé îðôîãðàôèè XVIII â.
1.3.1. Ñëîâàðè
Ñóùåñòâåííóþ ðîëü â îðãàíèçàöèè ïîèñêà èãðàþò ñëîâàðè. Çà 20012006 ãã. áûëè ïåðåèçäàíû â
ïå-÷àòíîì âèäå âñå òîìà «Ñëîâàðÿ Àêàäåìèè Ðîññèé-ñêîé» [2, 30] (ÑÀÐ) 1789-1794 ãã. Äàííàÿ ñîâðå-ìåííàÿ âåðñèÿ ÑÀÐ ïðåäñòàâëÿåò ñîáîé íàáîðíîå èçäàíèå ôàêñèìèëüíîãî òèïà (íå ïóòàòü ñ ôàêñè-ìèëüíûì èçäàíèåì). Åå ýëåêòðîííûé âàðèàíò [33]
ñîäåðæèò òàêæå ôàêñèìèëüíóþ âåðñèþ ÑÀÐ, íî îí íå ðàñïðîñòðàíÿåòñÿ ñâîáîäíî â ñåòè Èíòåðíåò.
1.3.2. Íàñòîëüíûå ïðèëîæåíèÿ
Ìíîãîïðîôèëüíûå íàñòîëüíûå òåêñòîâûå ðåäàê-òîðû è ïðîöåññîðû, â äîñòàòî÷íîé ìåðå ïîääåð-æèâàþùèå Unicode (íàïðèìåð, MS Word, MS Notepad), ïîçâîëÿþò îñóùåñòâëÿòü ïîèñê ñî ñòàðî-ðóññêèìè ñèìâîëàìè áåç ó÷åòà ñëîâîèçìåíåíèÿ.
Äëÿ OS MS Windows è åå Unicode-ïîääåðæèâàþ-ùèõ ïðèëîæåíèé åäèíñòâåííûì èçâåñòíûì ñðåä-ñòâîì äëÿ íåïîñðåäñòâåííîé ïå÷àòè ñòàðîðóññêèõ ñèìâîëîâ â ïîèñêîâîé ñòðîêå (áåç êîïèðîâàíèÿ è âñòàâêè) ÿâëÿåòñÿ ðàçðàáîòàííàÿ ðàíåå îäíèì èç àâòîðîâ êëàâèàòóðíàÿ ðàñêëàäêà [19]. Îíà ïîçâî-ëÿåò îñóùåñòâëÿòü ïîèñê íà äèñêå áåç ó÷åòà ñëî-âîèçìåíåíèÿ ïðè ïîìîùè ñòàíäàðòíûõ ñðåäñòâ OS MS Windows, â êîòîðûõ èìååòñÿ ïîëíàÿ ïîääåðæ-êà Unicode (Windows XP è âûøå).
Ñïåöèàëèçèðîâàííûå íàñòîëüíûå ïðîãðàììû äëÿ ðàáîòû ñ ðóññêîÿçû÷íûìè òåêñòàìè â ñòàðèííîé îðôîãðàôèè (STARLing, «Èðìîëîãèé», «Êíèæèöà»), îïèñàííûå â ïðåäûäóùåì ïîäðàçäåëå, íå èñïîëü-çóþò ìîðôîëîãè÷åñêèé àíàëèç â ñâîèõ ôóíêöèÿõ, â òîì ÷èñëå â ôóíêöèè ïîèñêà, åñëè îíà èìååòñÿ.
1.3.3. Web-ïðèëîæåíèÿ
Íà äàííûé ìîìåíò ïîèñê ðóññêîÿçû÷íûõ òåêñòîâ â îðôîãðàôèè XVIII â. â Èíòåðíåòå âîçìîæåí â òàêèõ ïîèñêîâûõ ìàøèíàõ, êàê Google, MSN, Yahoo, AOL (Netscape), USSeek, AltaVista, Alltheweb, ASK, Scirus, Nigma è ðàñøèðåííûé ßíäåêñ, îäíàêî â íèõ ïîèñê ïðîèçâîäèòñÿ òîëüêî ïî èñõîäíûì ôîðìàì íàáðàí-íûõ ïîëüçîâàòåëåì êëþ÷åâûõ ñëîâ áåç ó÷åòà ìîðôî-ëîãèè, à òàêæå òðåáóåò èñïîëüçîâàòü äîïîëíèòåëüíûå ñðåäñòâà äëÿ íàáîðà ñèìâîëîâ XVIII â.  êà÷åñòâå òàêèõ ñðåäñòâ ïðåäëàãàåòñÿ, íàïðèìåð, âèðòóàëüíàÿ
êëàâèàòóðà, ðàçìåùåííàÿ íà ñòðàíèöå ïðîåêòà
«Ðóññêié ïîèñêú» [25] (äàííàÿ ññûëêà ìîæåò îêàçàòü-ñÿ íåäåéñòâèòåëüíîé, òàê êàê ñàéò ïåðèîäè÷åñêè ìå-íÿåò URL), ïîçâîëÿþùàÿ ïå÷àòàòü ñòàðîðóññêèå áóê-âû â ïîèñêîâîé ñòðîêå Google. Òàêæå â êà÷åñòâå áî-ëåå óíèâåðñàëüíîãî ñðåäñòâà ìîæíî èñïîëüçîâàòü óïîìÿíóòóþ âûøå êëàâèàòóðíóþ ðàñêëàäêó, ïîçâî-ëÿþùóþ ïå÷àòàòü âñå ñòàðîðóññêèå áóêâû â ñòðîêå çàïðîñîâ ëþáîé ïîèñêîâîé ìàøèíû. Ïîñëåäíÿÿ ðàç-ðàáîòêà â îòëè÷èå îò âèðòóàëüíîé êëàâèàòóðû
«Ðóññêié ïîèñêú» ïîçâîëÿåò ïðîèçâîäèòü ïîèñê â êà-íîíè÷åñêè íàáðàííûõ ñòàðîðóññêèõ òåêñòàõ, ãäå âñå èñïîëüçóåìûå áóêâû ïðèíàäëåæàò êèðèëëè÷åñêîìó äèàïàçîíó Unicode. Ýòî íå èñêëþ÷àåò âîçìîæíîñòè ïîèñêà è â òåêñòàõ, íàáðàííûõ íå êàíîíè÷åñêè, ðàñ-êëàäêà ëåãêî ïåðåêëþ÷àåòñÿ. Ïîä íå êàíîíè÷åñêè íàáðàííûìè òåêñòàìè XVIII â. çäåñü ïîäðàçóìåâàþò-ñÿ òåêñòû, â êîòîðûõ, íàïðèìåð, âìåñòî áóêâ «È-äå-ñÿòåðè÷íîå» è «Èæèöà» èç êèðèëëè÷åñêîãî äèàïàçî-íà Unicode èñïîëüçóåòñÿ ãðàôè÷åñêè ïîõîæèå äèàïàçî-íà íèõ áóêâû «È-äåñÿòåðè÷íîå» è «V» èç ëàòèíñêîãî äèàïà-çîíà, âìåñòî áóêâû «Ôèòà» «Òýòà» èç äèàïàçîíà
ãðå-÷åñêèõ ñèìâîëîâ è ò.ï. Ðàñïîëîæåíèå ñèìâîëîâ â ñîçäàííîé ðàñêëàäêå ðàññ÷èòàíî ïî ýðãîíîìè÷åñêîé ìîäåëè ñîîòâåòñòâåííî ÷àñòîòàì äâóõ- è òðåõáóêâåí-íûõ ñî÷åòàíèé â ñòàðîðóññêèõ òåêñòàõ. Ðàñêëàäêà ïðåäñòàâëÿåò ñîáîé èíñòàëëèðóåìûé ôàéë ëîêàëè Windows è èñïîëüçóåòñÿ ñïåöèàëèñòàìè ïî èñòîðèè ÿçûêà è ÿçûêîçíàíèþ. Ðàñêëàäêà ïîçâîëÿåò òàêæå ïå÷àòàòü ñòàðîðóññêèå ñèìâîëû äëÿ ïîèñêà íåïîñðåä-ñòâåííî â îòêðûòîì ÷åðåç áðàóçåð èëè ðåäàêòîð äî-êóìåíòå, èñïîëüçóÿ ñòàíäàðòíûå ñðåäñòâà ïîèñêà.
Îñíîâíûì ïðåïÿòñòâèåì äëÿ âíåäðåíèÿ ïîèñêà òåñòîâ XVIII â. â ïîèñêîâûõ ñèñòåìàõ ÿâëÿåòñÿ îòñóòñòâèå ïîëíîé ïîääåðæêè ïîèñêîâûìè ñèñòå-ìàìè êîäèðîâêè Unicode.  ïîèñêîâûõ ìàøèíàõ Àïîðò, Metabot, îáëåã÷åííûé ßíäåêñ, Rambler è â áîëüøèíñòâå ftp-ïîèñêîâèêîâ íåêîòîðûå Unicode-ñèìâîëû çàìåíÿþòñÿ ñèìâîëàìè îäíîáàéòîâûõ êîäèðîâîê ïî ïðèíöèïó íàëîæåíèÿ êîäîâûõ ñòðà-íèö Unicode, ëèáî äâóõáàéòíûé êîä îáðàáàòûâà-åòñÿ êàê äâà ñèìâîëà (íàïðèìåð, â ìåòàïîèñêîâîé ñèñòåìå Metabot.ru), ëèáî ãåíåðèðóåòñÿ îøèáêà. Ïî ïðèíöèïó íàëîæåíèÿ êîäîâûõ ñòðàíèö äîïîëíè-òåëüíûå Unicode-ñèìâîëû çàìåíÿþòñÿ â ðÿäå
ñëó-÷àåâ ãðàôè÷åñêè, ëåêñè÷åñêè è/èëè
ýòèìîëîãè-÷åñêè ïîõîæèìè ñèìâîëàìè îäíîáàéòîâûõ êîäè-ðîâîê, à â ðÿäå ñëó÷àåâ çàìåíÿþòñÿ íèêàêèì îá-ðàçîì íå ïîõîæèìè ñèìâîëàìè îäíîáàéòîâûõ êî-äèðîâîê. Íàïðèìåð ãðå÷åñêàÿ áóêâà Ïñè (Ø) çà-ìåíÿåòñÿ êèðèëëè÷åñêîé áóêâû Øà è ò.ï.  ïîèñ-êîâûõ ìàøèíàõ Google, MSN, Yahoo, AOL (Netscape), USSeek, AltaVista, Alltheweb, ASK, Scirus, Nigma è ðàñøèðåííûé ßíäåêñ êîäèðîâêà Unicode ïîääåð-æèâàåòñÿ áîëåå øèðîêî, â òîì ÷èñëå âîçìîæíî èñ-ïîëüçîâàíèå Unicode-ñèìâîëîâ ðóññêîãî ÿçûêà XVIII â.
Òàêèì îáðàçîì, ìîæíî âûäåëèòü 4 óðîâíÿ ñïî-ñîáíîñòè ïîèñêîâûõ ñèñòåì îáðàáàòûâàòü çàïðî-ñû, ñîäåðæàùèå ñèìâîëû, îòñóòñòâóþùèå â îäíî-áàéòîâûõ êîäèðîâêàõ, â òîì ÷èñëå ñèìâîëû ñòà-ðîðóññêîãî ÿçûêà (â êà÷åñòâå ïðèìåðîâ ïðèâåäåíû ïîïóëÿðíûå â Ðîññèè ïîèñêîâèêè):
0. Ìîðôîëîãè÷åñêîå ðàñøèðåíèå ïîèñêà äëÿ
ñòà-ðîðóññêîãî ÿçûêà íå ðåàëèçîâàíî â ïîèñêîâûõ ñèñ-òåìàõ. Åñëè ñëîâî çàïðîñà ñîñòîèò èñêëþ÷èòåëüíî èç áóêâ ñîâðåìåííîãî ðóññêîãî ÿçûêà, ïîèñê ïðîèçâî-äèòñÿ ñ ó÷åòîì ìîðôîëîãèè ñîâðåìåííîãî ðóññêîãî ÿçûêà, êîòîðàÿ íå ñîâïàäàåò ñ ìîðôîëîãèåé ñòàðî-ðóññêîãî ÿçûêà.
1. Ïîèñêîâûå ìàøèíû Google, MSN, Yahoo, AOL (Netscape), USSeek, AltaVista, Alltheweb, ASK, Scirus, ìåòàïîèñêîâûé ñòàðòàï Nigma è ðàñøèðåííûé ïîèñê ßíäåêñ ïðåäñòàâëÿþò áàçîâûå âîçìîæíîñòè ïîèñêà âûðàæåíèé, âêëþ÷àþùèõ Unicode-ñèìâî-ëû, îòñóòñòâóþùèå â îäíîáàéòîâûõ êîäèðîâêàõ, â òîì ÷èñëå ñèìâîëû ñòàðîðóññêîãî ÿçûêà. Ïî
ïðè-÷èíå èñïîëüçîâàíèÿ íå Unicode-ïîëíîãî øðèôòà (ðåæå, íàïðèìåð, â Nigma ïî äðóãèì ïðè÷èíàì) îòîáðàæåíèå ðåçóëüòàòîâ ïîèñêà â áðàóçåðå ìîæåò áûòü íåêîððåêòíûì, íî ïîèñê ÿâëÿåòñÿ òî÷íûì.
2. Web-ïîèñêîâèêè Àïîðò, Metabot (ìåòàïîèñêî-âèê), îáëåã÷åííûé ïîèñê ßíäåêñ, Rambler (è ðàñøè-ðåííûé ïîèñê Rambler), áîëüøèíñòâî èçâåñòíûõ ftp-ïîèñêîâèêîâ (ñ ïîñòòðàíñëèòåðàöèåé) ïîäâåðãàþò íåêîòîðûå Unicode-ñèìâîëû çàïðîñà óíèôèêàöèè,
÷òî ïðèâîäèò ê íåêîððåêòíîìó ïîèñêó, ëèáî ãåíåðè-ðóþò îøèáêó. Óíèôèêàöèÿ çàêëþ÷àåòñÿ â çàìåíå íåêîòîðûõ äîïîëíèòåëüíûõ Unicode-ñèìâîëîâ íà (ãðàôè÷åñêè, ëåêñè÷åñêè è/èëè ýòèìîëîãè÷åñêè) ïîõîæèå èëè íå ïîõîæèå ñèìâîëû îäíîáàéòîâûõ êî-äèðîâîê, íàïðèìåð, ïî ïðèíöèïó íàëîæåíèÿ êîäî-âûõ ñòðàíèö Unicode. Íàïðèìåð, äëÿ ñëîâ ñ áóêâàìè ñòàðîðóññêîãî ÿçûêà îáëåã÷åííûé ßíäåêñ è Rambler äàþò îøèáêó, Àïîðò è Metabot îøèáêó èëè íåêîð-ðåêòíîå îòîáðàæåíèå.
3. Ïîèñêîâûå ìàøèíû Mail.ru, Webalta, Bigmir.net, Lupa.ru, è ìåòàïîèñêîâûé ñòàðòàï Punto.ru äàþò îøèáêè äëÿ âûðàæåíèé, ñîäåðæàùèõ ñèìâîëû, îò-ñóòñòâóþùèå â îäíîáàéòîâûõ êîäèðîâêàõ. Lupa.ru èñïîëüçóåò òðàíñëèòåðàöèþ äëÿ ðÿäà ñèìâîëîâ (íà-ïðèìåð, êèðèëëè÷åñêèå ñèìâîëû íàöèîíàëüíûõ àë-ôàâèòîâ çàìåíÿþòñÿ ãðàôè÷åñêè ïîõîæèìè áóêâàìè ðóññêîãî àëôàâèòà).
Ïóíêòû 13 òåêóùåãî ðàçäåëà îòðàæàþò ñïåöè-ôèêó ðàáîòû ïîèñêîâûõ ñèñòåì ñ êîäàìè ñèìâîëîâ, à ãèïîòåòè÷åñêèé ïóíêò 0 ìîðôîëîãè÷åñêîå ðàñ-øèðåíèå ïîèñêà äëÿ ñòàðîðóññêîãî ÿçûêà. Ìîäåðíè-çàöèÿ ïîèñêîâûõ ìàøèí, ïåðåõîä ñ óðîâíåé 2 è 3 íà óðîâåíü 1 ÿâëÿåòñÿ âîçìîæíûì.
Ñïåöèàëèçèðóþùèéñÿ íà äðåâíåðóññêèõ òåêñòàõ ÈÏÑ «Ìàíóñêðèïò» èñïîëüçóåò àíàëèç ïî ìîðôî-ëîãèè äëÿ äðåâíåðóññêîãî ÿçûêà (äî XVIII â.), îí íå ïðåäñòàâëÿåò âîçìîæíîñòåé äëÿ ïîèñêà ñ ó÷åòîì ñëî-âîèçìåíåíèÿ ñòàðîðóññêèõ òåêñòîâ (XVIIIXIX ââ.), òàê êàê äàííûå ìîðôîëîãèè îòëè÷àþòñÿ. Áàçà äàí-íûõ ÈÏÑ «Ìàíóñêðèïò» ñîäåðæèò íåñêîëüêî òåêñòîâ XVIII â. (10 ïèñåì Ì.Â.Ëîìîíîñîâà), îäíàêî îíè ïðèâåäåíû â ñîâðåìåííîé îðôîãðàôèè.
1.3.4. Èòîãè
Ðàñòóùèå îáúåìû äîêóìåíòîâ, èñïîëüçóþùèõ ñèì-âîëû, ðàçìåùåííûå íà êèðèëëè÷åñêîé ñòðàíèöå Unicode, íî íå ïðèíàäëåæàùèå ñîâðåìåííîìó ðóñ-ñêîìó àëôàâèòó, íóæäàþòñÿ â òàêèõ ìåõàíèçìàõ ðà-áîòû, êàê ïîèñê ñ ó÷åòîì ñëîâîèçìåíåíèÿ. Ýòî îò-íîñèòñÿ è ê òåêñòàì â îðôîãðàôèè ñòàðîðóññêîãî ÿçûêà.