• 検索結果がありません。

Îïèñàíèå ìåòîäîâ è àëãîðèòìîâ

ドキュメント内 untitled (ページ 154-161)

2.1. Âûäåëåíèå îñíîâû òåêñòà

Âñå ñëîâà ðóññêîãî ÿçûêà ìîæíî ðàçäåëèòü íà íå-ñêîëüêî ãðóïï ïî ôóíêöèÿì, êîòîðûå îíè âûïîëíÿ-þò.  ïåðâîé ãðóïïå ìîæíî îòíåñòè ñëîâà, ñ ïîìî-ùüþ êîòîðûõ îïèñûâàþò îñíîâíûå ïîíÿòèÿ, ñîáû-òèÿ, ïðåäìåòû, ðå÷ü î êîòîðûõ èäåò â òåêñòå. Êî âòî-ðîé ãðóïïå îòíîñÿòñÿ ñëîâà, êîòîðûå èñïîëüçóþò äëÿ ñâÿçûâàíèÿ îñíîâíûõ ïîíÿòèé â îäíó ëîãè÷åñêóþ ñòðóêòóðó. Ñëîâà ýòîé ãðóïïû ïîëåçíû ïðè

ñåìàíòè-÷åñêîì àíàëèçå, îäíàêî ïðè àíàëèçå òåêñòà ñòàòèñ-òè÷åñêèìè ìåòîäàìè íàëè÷èå ýòèõ ñëîâ ìîæåò îòðè-öàòåëüíî ñêàçàòüñÿ íà ðåçóëüòàòå.  òðåòüþ ãðóïïó âõîäÿò âñïîìîãàòåëüíûå ñëîâà, êîòîðûå èñïîëüçóþò-ñÿ äëÿ ïðèäàíèÿ ýìîöèîíàëüíîé îêðàñêè òåêñòà.

Ñëîâà ýòîé ãðóïïû íåñóò íåáîëüøóþ ñìûñëîâóþ íà-ãðóçêó, è èõ íàáîð ñèëüíî çàâèñèò îò ñòèëÿ òåêñòà.

Ó÷èòûâàÿ ñåãîäíÿøíèé óðîâåíü ðàçâèòèÿ ëèíãâè-ñòè÷åñêèõ ìåòîäîâ è òðóäíîñòè, ïðåïÿòñòâóþùèå ïðîâåäåíèþ ñåìàíòè÷åñêîãî àíàëèçà, ïîëó÷åíèå ñå-ìàíòè÷åñêîé ñåòè, îòðàæàþùèé ñìûñë òåêñòà, ÿâëÿ-åòñÿ çàòðóäíèòåëüíûì. Ïîýòîìó äëÿ âûäåëåíèÿ ñìûñ-ëîâîãî ïîðòðåòà òåêñòà áîëåå ïðîñòûì è ëåãêî ðåà-ëèçóåìûì ÿâëÿåòñÿ ñëåäóþùèé ìåòîä, ñóòü êîòîðîãî â òîì, ÷òî âñåì ñëîâàì òåêñòà ñîïîñòàâëÿåòñÿ îäíà èç âûøåîïèñàííûõ ãðóïï, è äëÿ äàëüíåéøåãî àíàëè-çà áåðóòñÿ ñëîâà, îòíîñÿùèåñÿ ê ïåðâîé ãðóïïå. Îòî-áðàííûå ñëîâà ñîáèðàþòñÿ ïî ïîðÿäêó èõ ñëåäîâà-íèÿ â òåêñòå (ðèñ. 1).

Ñîïîñòàâëåíèå ñëîâ ñ òîé èëè èíîé ãðóïïîé

ìîæ-Ðèñ. 1. Âûäåëåíèå èíôîðìàòèâíûõ ñëîâ èç òåêñòà íî ðåàëèçîâàòü íà îñíîâàíèè äàííûõ ìîðôîëîãè÷åñ-êîãî àíàëèçà ñëîâà (÷àñòü ðå÷è, ïàäåæ, ñêëîíåíèå ñïðÿæåíèå è ò. ä.). Çà íåêîòîðûì èñêëþ÷åíèåì, ñëî-âà ìîæíî ðàçáèòü íà ãðóïïû íà îñíîñëî-âàíèè ÷àñòè ðå÷è.

Íîâîñòíûå ñîîáùåíèÿ, â îñíîâíîì, îïèñûâàþò ôàê-òû, ïîýòîìó îñíîâíàÿ ñìûñëîâàÿ íàãðóçêà â ýòèõ ñî-îáùåíèÿõ áóäåò ëîæèòüñÿ íà ñóùåñòâèòåëüíûå, ãëà-ãîëû, ÷èñëèòåëüíûå è, â íåêîòîðûõ ñëó÷àÿõ, ïðèëà-ãàòåëüíûå, òî åñòü íà ñëîâà ïåðâîé ãðóïïû. Ïðèìå-ðîì ñëîâ èç âòîðîé ãðóïïû ñëóæàò ìåñòîèìåíèÿ è âñå ñëóæåáíûå ÷àñòè ðå÷è. Ê òðåòüåé ìîæíî îòíåñòè ìåæäîìåòèÿ, ìîäàëüíûå ñëîâà (íàïðèìåð: êîíå÷íî, ïî-âèäèìîìó) è êàòåãîðèè ñîñòîÿíèÿ (íåëüçÿ, æàëü).

 òàáë. 1 ïðèâåäåí ïðèìåð ðàçáîðà òåêñòà.

Óäàëåíèå èç òåêñòà ÷àñòè ñëîâ îáóñëîâëåíî òåì,

÷òî íîâîñòíûå ñîîáùåíèÿ, èìåþùèå îäèíàêîâûé ñìûñë, ìîãóò áûòü íàïèñàíû ïî-ðàçíîìó. Íî â áîëüøèíñòâå ñëó÷àåâ íàáîðû èíôîðìàöèîííûõ ñëîâ ýòèõ ñîîáùåíèé áóäóò î÷åíü ïîõîæè äðóã íà äðóãà ïî ñîñòàâó.

Âñå çíàêè ïðåïèíàíèÿ ïðè àíàëèçå òåêñòà èãíî-ðèðóþòñÿ, ïîòîìó ÷òî â áîëüøîì êîëè÷åñòâå ñëó÷àåâ

ðóññêèé ÿçûê ïîçâîëÿåò áåç èçìåíåíèÿ ñìûñëà îáúå-äèíÿòü íåñêîëüêî ïðåäëîæåíèé â ñëîæíîïîä÷èíåí-íûå è ñëîæíîñî÷èíåíñëîæíîïîä÷èíåí-íûå, à òàêæå ðàçáèâàòü ñëîæ-íûå ïðåäëîæåíèÿ íà íåñêîëüêî ïðîñòûõ.

2.2. Ïîïàðíîå ñðàâíåíèå òåêñòîâ

Íåîáõîäèìîñòü ïîïàðíîãî ñðàâíåíèÿ âñåõ àíàëè-çèðóåìûõ ñîîáùåíèé îáóñëîâëèâàåòñÿ òåì ôàêòîì,

÷òî ïî ðåçóëüòàòàì ñðàâíåíèÿ ïåðâîãî òåêñòà ñî âòîðûì è âòîðîãî ñ òðåòüèì òðóäíî ïðåäñêàçàòü ðåçóëüòàòû ñðàâíåíèÿ ïåðâîãî òåêñòà ñ òðåòüèì.

Ïðè ñðàâíåíèè äâóõ òåêñòîâ èíôîðìàöèîííûå ñëîâà îäíîãî òåêñòà ñîïîñòàâëÿþòñÿ ñ èíôîðìà-öèîííûìè ñëîâàìè âòîðîãî òåêñòà. Äëÿ ýòîãî âñå èíôîðìàöèîííûå ñëîâà òåêñòîâ ïåðåâîäÿòñÿ â íà÷àëüíóþ ñëîâîôîðìó ñ ïîìîùüþ

ìîðôîëîãè-÷åñêîãî ñëîâàðÿ. Òàê êàê âñåì èíôîðìàöèîííûì ñëîâàì ìîæíî ñîïîñòàâèòü óíèêàëüíûé, â ïðåäå-ëàõ êàæäîãî òåêñòà, ïîðÿäêîâûé íîìåð (ñîãëàñíî ïîðÿäêó èõ ñëåäîâàíèÿ â òåêñòå), òî ðåçóëüòàò ñî-ïîñòàâëåíèÿ äâóõ òåêñòîâ ìîæíî ïðåäñòàâèòü â âèäå íàáîðà ïàð ÷èñåë, ñîîòâåòñòâóþùèõ ïîðÿä-êîâûì íîìåðàì îäèíàêîâûõ äëÿ äâóõ òåêñòîâ ñëîâ.

Ïðè ýòîì íåêîòîðûå ñëîâà ìîãóò èìåòü íåñêîëüêî ïàð èëè íå èìåòü ïàð âîâñå (ðèñ. 2).

Ïîëó÷åííûé íàáîð ïàð ÷èñåë äåìîíñòðèðóåò ëèøü òîò ôàêò, ÷òî â òåêñòàõ ïðèñóòñòâóþò îäèíàêî-âûå ñëîâà. Èç òîãî, ÷òî íåêîòîðûå ñëîâà îäíîãî

òåê-Ðèñ. 2. Ñîïîñòàâëåíèå äâóõ òåêñòîâ

ñòà ðàâíû íåêîòîðûì ñëîâàì äðóãîãî òåêñòà, íå ñëå-äóåò, ÷òî òåêñòû èìåþò áëèçêèé ñìûñë. Õîòÿ

íàëè-÷èå áîëüøîãî êîëè÷åñòâà îäèíàêîâûõ ñëîâ óâåëè÷è-âàåò âåðîÿòíîñòü òîãî, ÷òî òåêñòû ñîäåðæàò ïîõîæóþ èíôîðìàöèþ.

2.3. Äèàãðàììà ñðàâíåíèÿ äâóõ òåêñòîâ

Ìåòîä íàõîæäåíèÿ áëèçêèõ ïî ñìûñëó ÷àñòåé äâóõ òåêñòîâ îñíîâàí íà ïðåäïîëîæåíèè, ÷òî áîëüøèí-ñòâî íîâîñòíûõ ñîîáùåíèé îïèñûâàþò ñîáûòèÿ â âèäå ôàêòîâ. Èíôîðìàöèÿ î ôàêòàõ áåðåòñÿ èç îäíîãî èëè íåñêîëüêèõ ïåðâîèñòî÷íèêîâ. Òàê êàê â çàäà÷è íîâîñòíûõ ñåðâèñîâ âõîäèò ïåðåäà÷à íîâîé èíôîðìàöèè ñ ìèíèìàëüíûìè èñêàæåíèÿìè, òî

ñî-îáùåíèÿ, ñîäåðæàùèå èíôîðìàöèþ èç îäíîãî ïåð-âîèñòî÷íèêà, áóäóò òåêñòóàëüíî áëèçêè. À åñëè ó÷åñòü, ÷òî âñå ïåðâîèñòî÷íèêè îïèñûâàþò îäíî è òî æå ñîáûòèå, òî òåêñòóàëüíàÿ áëèçîñòü äîëæíà íàáëþäàòüñÿ ìåæäó âñåìè ñîîáùåíèÿìè îá ýòîì ñîáûòèè.

Îäíî íîâîñòíîå ñîîáùåíèå ðåäêî ñîäåðæèò èñ÷åðïûâàþùóþ èíôîðìàöèþ î ñîáûòèè. Òàêæå îíî ìîæåò ñîäåðæàòü ââåäåíèå èëè êîììåíòàðèè.

Ïîýòîìó òåêñòóàëüíàÿ áëèçîñòü áóäåò íàáëþäàòüñÿ ìåæäó òåìè ÷àñòÿìè ñîîáùåíèé, êîòîðûå ñîäåð-æàò îïèñàíèå îäèíàêîâûõ ôàêòîâ. À âåðîÿòíîñòü òîãî, ÷òî â äâóõ ñîîáùåíèÿõ îá îäíîì è òîì æå ñîáûòèè áóäåò íàáëþäàòüñÿ òåêñòóàëüíàÿ áëèçîñòü ìåæäó ÷àñòÿìè, îïèñûâàþùèìè ðàçíûå ôàêòû, î÷åíü ìàëà.

Äëÿ âûÿâëåíèÿ ïîõîæèõ ÷àñòåé äâóõ òåêñòîâ ïðåäñòàâèì íàáîð ïàð ÷èñåë â âèäå òî÷åê íà äèàãðàììå. Ïðè÷åì, ïåðâîå ÷èñëî èç ïàðû áóäåò îòêëàäûâàòüñÿ ïî îñè àáñöèññ, à âòîðîå – ïî îñè îðäèíàò. Íà ðèñ. 3 ïðèâåäåí ïðèìåð òàêîé äèàãðàììû äëÿ ïàð ÷èñåë, ïðåäñòàâëåííûõ íà ðèñ. 2.

Òàê êàê êîîðäèíàòû òî÷åê ÿâëÿþòñÿ ïîðÿäêîâû-ìè íîìåðàïîðÿäêîâû-ìè ñëåäîâàíèÿ èíôîðìàòèâíûõ ñëîâ â ñî-îòâåòñòâóþùåì òåêñòå, òî ìèíèìàëüíîå çíà÷åíèå êîîðäèíàò ðàâíî îäíîìó, à ìàêñèìàëüíîå íå ìîæåò ïðåâîñõîäèòü êîëè÷åñòâî èíôîðìàòèâíûõ ñëîâ â ñî-îòâåòñòâóþùåì òåêñòå.

Åñëè ñðàâíèâàåìûå ñîîáùåíèÿ èìåþò òåêñòóàëü-íî áëèçêèå ÷àñòè, òî òî÷êè íà äèàãðàììå, ñîîòâåò-ñòâóþùèå ýòèì ÷àñòÿì, áóäóò ðàñïîëîæåíû â îïðå-äåëåííîé êîìáèíàöèè. Ìîæíî âûäåëèòü íåñêîëüêî áàçîâûõ êîìáèíàöèé ðàñïîëîæåíèÿ òî÷åê íà äèàã-ðàììå. Íà ðèñ. 4–8 ïðèâåäåíû ïðèìåðû ýòèõ êîì-áèíàöèé.  êàæäîì ïðèìåðå â êà÷åñòâå òåêñòîâ ïðè-âåäåíû ïîñëåäîâàòåëüíîñòè áóêâ. Êàæäàÿ áóêâà óñ-ëîâíî ïðåäñòàâëÿåò îäíî ñëîâî èç òåêñòà.

Íåñìîòðÿ íà òî, ÷òî ïîâòîðû â ýëåêòðîííûõ íîâîñòíûõ ñîîáùåíèÿõ âñòðå÷àþòñÿ ðåäêî, íåîá-õîäèìî óìåòü èõ êîððåêòíî îáðàáàòûâàòü. Ïîâòî-ðû íå äîëæíû óâåëè÷èâàòü öåííîñòü ñîîáùåíèÿ. Äâà îäèíàêîâûõ ñîîáùåíèÿ, â îäíîì èç êîòîðûõ èìååò-ñÿ ïîâòîð ÷àñòè âòîðîãî ñîîáùåíèÿ, äîëæíû èìåòü îäèíàêîâóþ öåííîñòü.

Ðèñ. 3 Ðàñïîëîæåíèå íàáîðà ïàð ÷èñåë íà äèàãðàììå

Ðèñ. 4. Äèàãðàììà äëÿ äâóõ îäèíàêîâûõ òåêñòîâ

Ðèñ. 5. Âèä äèàãðàììû ïðè çàìåíå ñëîâà â îäíîì èç òåêñòîâ

Ðèñ. 6. Âèä äèàãðàììû ïðè ïðîïóñêå ñëîâà â îäíîì èç òåêñòîâ

Ðèñ. 7. Âèä äèàãðàììû ïðè ïåðåñòàíîâêå ìåñòàìè äâóõ ñëîâ

Ðèñ. 8. Âèä äèàãðàììû ïðè ïîâòîðå ÷àñòè âòîðîãî òåêñòà â íåñêîëüêèõ ìåñòàõ ïåðâîãî òåêñòà

Ðèñ. 9. Ïðèìåð ñêîïëåíèé, âûòÿíóòûõ âäîëü öåíòðàëü-íûõ ïðÿìûõ

2.4. Ïîèñê ïîõîæèõ ÷àñòåé â òåêñòàõ

Îñíîâíàÿ èäåÿ ìåòîäà âûäåëåíèÿ â äâóõ òåêñòàõ ïî-õîæèõ ÷àñòåé îñíîâûâàåòñÿ íà ðàññóæäåíèÿõ, ñäå-ëàííûõ â ïðåäûäóùåì ïàðàãðàôå. Ïîõîæèå ÷àñòè äâóõ òåêñòîâ áóäóò ïîðîæäàòü íà äèàãðàììå ñêîïëå-íèÿ òî÷åê, âûòÿíóòûå âäîëü ïðÿìîé ïîä óãëîì 45° ê îñè àáñöèññ (ðèñ. 9). Íàçîâåì ýòè ïðÿìûå «öåíò-ðàëüíûìè ïðÿìûìè». Åñëè íåêîòîðûå ÷àñòè òåêñòîâ äóáëèðóþò äðóã äðóãà ñëîâî â ñëîâî, òî òî÷êè, ñîîò-âåòñòâóþùèå ýòèì ÷àñòÿì, áóäóò íàõîäèòüñÿ íà öåí-òðàëüíîé ïðÿìîé. À åñëè îäíà èç ÷àñòåé áóäåò íå-çíà÷èòåëüíî èçìåíåíà, òî íà äèàãðàììå áóäåò íà-áëþäàòüñÿ íåáîëüøîé ðàçáðîñ òî÷åê âîêðóã öåíò-ðàëüíîé ïðÿìîé.

Åñëè ïîâåðíóòü äèàãðàììó íà 45° ïî ÷àñîâîé ñòðåëêå îòíîñèòåëüíî íà÷àëà êîîðäèíàò, òî öåíò-ðàëüíûå ïðÿìûå ñòàíóò ãîðèçîíòàëüíûìè, è âû-òÿíóòûå âäîëü íèõ ñêîïëåíèÿ òî÷åê ëåãêî ìîæíî áóäåò âûÿâèòü ñ ïîìîùüþ ïðÿìîóãîëüíîãî îêíà (ðèñ. 10).

Ðèñ. 10. Äèàãðàììà, ïîâåðíóòàÿ íà 450 ñ ïðÿìîóãîëüíûì îêíîì

Ïðè ïîâîðîòå äèàãðàììû íîâûå êîîðäèíàòû

òî-÷åê ðàññ÷èòûâàþòñÿ ïî ñëåäóþùèì ôîðìóëàì:

π

α

⋅ +

= )

) 4 xo yo ( cos(arctan 2)

yo 2 xo n (

x (1)

, 4) ) xo yo ( sin(arctan 2)

yo 2 xo n (

y = + π α

(2) ãäå (xO, yO) – ñòàðûå êîîðäèíàòû òî÷êè;

(xn, yn) – íîâûå êîîðäèíàòû òî÷êè;

α – êîýôôèöèåíò ìàñøòàáèðîâàíèÿ. Ïðè

= 2

α íîâûå êîîðäèíàòû áóäóò öåëûìè ÷èñëàìè.

Îêíî õàðàêòåðèçóåòñÿ òðåìÿ ïàðàìåòðàìè: âû-ñîòîé, øèðèíîé è ïîðîãîì çàïîëíåíèÿ. Ïîðîã çàïîëíåíèÿ ðàâåí ìèíèìàëüíîìó êîëè÷åñòâó ïî-ïàâøèõ â îêíî òî÷åê, êîòîðûå ìîæíî èäåíòèôè-öèðîâàòü êàê êîìïàêòíîå ñêîïëåíèå. Åñëè

êîëè-÷åñòâî òî÷åê ìåíüøå ïîðîãà, òî ýòè òî÷êè ñ÷èòà-þòñÿ øóìîì. Åñëè êîëè÷åñòâî òî÷åê áîëüøå ïî-ðîãà, òî ñîîòâåòñòâóþùèå èì ÷àñòè òåêñòîâ ñ÷èòà-þòñÿ òåêñòóàëüíî áëèçêèìè. Òàê êàê ýòè ñêîïëå-íèÿ âûòÿíóòû âäîëü ãîðèçîíòàëüíîé îñè, òî ïî-ðîã äîëæåí ðàâíÿòüñÿ ïðîöåíòó îò øèðèíû îêíà ñ ó÷åòîì êîýôôèöèåíòà ìàñøòàáèðîâàíèÿ. Øèðèíà îêíà õàðàêòåðèçóåò ðàçìåð îáðàáàòûâàåìîãî êóñêà òåêñòà. Âûñîòà îêíà âûðàæàåò ñòåïåíü äîïóñòè-ìûõ èçìåíåíèé â ïîðÿäêå ñëåäîâàíèÿ ñëîâ â îä-íîì òåêñòå ïî îòíîøåíèþ ê äðóãîìó. Öåëåñîîá-ðàçíî çàäàâàòü çíà÷åíèå âûñîòû ìåíüøåå, ÷åì çíà÷åíèå øèðèíû.

Ïðîõîä îêíîì ïî âñåé ïîâåðõíîñòè äèàãðàììû íåîáõîäèìî âûïîëíÿòü ñ øàãîì íà åäèíèöó. Òà-êèì îáðàçîì, ïîïàäàþùèå â îêíî îáëàñòè ïåðå-êðûâàþò äðóã äðóãà, ïîäîáíî øèíãëàì. Ýòî ãà-ðàíòèðóåò, ÷òî íè îäíî ñêîïëåíèå òî÷åê íå áóäåò ïðîïóùåíî, à ñêîïëåíèÿ, èìåþùèå äëèíó (ïîñëå ïîâîðîòà äèàãðàììû) áîëüøóþ, ÷åì äëèíà îêíà, áó-äóò îáðàáîòàíû êîððåêòíî.

Çíà÷åíèÿ ïàðàìåòðîâ îêíà íåîáõîäèìî âûáè-ðàòü èñõîäÿ èç òîãî, ÷òî ïîíèìàåòñÿ ïîä ïîõîæå-ñòüþ ÷àñòåé äâóõ òåêñòîâ. Åñëè, íàïðèìåð, íåîá-õîäèìî âûÿâèòü ÷àñòè, â êîòîðûõ íåò íèêàêèõ ïåðåñòàíîâîê è çàìåí, òî íåîáõîäèìî âçÿòü øè-ðèíó îêíà ðàâíóþ 1 è çàïîëíåíèå ðàâíîå 100%, à øèðèíà äîëæíà ñîîòâåòñòâîâàòü ðàçìåðó âûÿâëÿå-ìûõ ÷àñòåé. Åñëè íåîáõîäèìî âûÿâèòü ÷àñòè òåê-ñòîâ, ñîñòîÿùèõ íå ìåíåå ÷åì íà ïîëîâèíó èç îäèíàêîâûõ ñëîâ, âíå çàâèñèìîñòè îò ïåðåñòàíî-âîê, òî íåîáõîäèìî âçÿòü êâàäðàòíîå îêíî ñîîò-âåòñòâóþùèõ ðàçìåðîâ, à ïîðîã çàïîëíåíèÿ ïîñòà-âèòü íà óðîâíå 50%. Ïðè íåîáõîäèìîñòè, ÷òîáû âñå ïàðû ñëîâ ïðîøëè íà ñëåäóþùèé óðîâåíü îáðàáîòêè, ìîæíî âçÿòü îêíî ðàçìåðàìè 1õ1 èëè ïîñòàâèòü ïîðîã çàïîëíåíèÿ íà óðîâíå 0%, òîãäà íè îäíà ïàðà íå áóäåò îòñåÿíà. Ïðèâåäåííûå ïðè-ìåðû ïîêàçûâàþò, ÷òî îïòèìàëüíûå çíà÷åíèÿ ïà-ðàìåòðîâ îêíà ìîãóò âàðüèðîâàòüñÿ â çàâèñèìîñòè îò ïîñòàâëåííîé çàäà÷è.

2.5. Ìàñêà ïîäîáèÿ

 ðåçóëüòàòå ïðîõîæäåíèÿ îêíîì ïî âñåé ïîâåð-õíîñòè äèàãðàììû áóäóò âûÿâëåíû âñå äîñòàòî÷íî ïëîòíûå (ñîãëàñíî ïàðàìåòðàì îêíà) ñêîïëåíèÿ

òî-÷åê. Î÷åâèäíî, ÷òî âî ìíîãèõ ñëó÷àÿõ íå âñå èíôîð-ìàöèîííûå ñëîâà ñðàâíèâàåìûõ òåêñòîâ ïîïàäóò â òàêèå ñêîïëåíèÿ. Ïîýòîìó â ðåçóëüòàòå àíàëèçà äè-àãðàììû âñå èíôîðìàöèîííûå ñëîâà êàæäîãî èç òåê-ñòîâ ðàçäåëÿòñÿ íà äâå ãðóïïû. Ê ïåðâîé ãðóïïå îò-íîñÿòñÿ ñëîâà, êîòîðûå èçíà÷àëüíî íå èìåëè íè îä-íîé ïàðû ñî ñëîâàìè äðóãîãî òåêñòà è íå ïîïàëè íà äèàãðàììó, à òàêæå ñëîâà, ïîïàâøèå íà äèàãðàììó, íî íå âîøåäøèå íè â îäíî ìíîæåñòâî. Êî âòîðîé ãðóïïå îòíîñÿòñÿ ñëîâà, íàõîäÿùèåñÿ â îäíîì èëè íåñêîëüêèõ ìíîæåñòâàõ.

Ïðè ñðàâíåíèè äâóõ òåêñòîâ, ìàñêîé ïîäîáèÿ ïåð-âîãî òåêñòà êî âòîðîìó áóäåì íàçûâàòü ìàññèâ, ñî-ñòîÿùèé èç âñåõ ñëîâ ïåðâîé ãðóïïû ïåðâîãî òåêñòà è èç ñëîâ âòîðîé ãðóïïû ñ óêàçàíèåì ïàðû. Ìàñêîé ïîäîáèÿ âòîðîãî òåêñòà ïåðâîìó áóäåì íàçûâàòü ìàñ-ñèâ, ñîñòîÿùèé èç âñåõ ñëîâ ïåðâîé ãðóïïû âòîðîãî òåêñòà è âñåõ ñëîâ âòîðîé ãðóïïû ñ óêàçàíèåì ïàðû.

 òàáë. 1 ïðèâåäåí ïðèìåð ìàñîê ïîäîáèÿ äâóõ òåê-ñòîâ.

Òàáëèöà 1 Ïðèìåð ìàñîê ïîäîáèÿ

Òåêñò 1

(òîëüêî èíôîðìàöèîííûå ñëîâà) a c d e f Òåêñò 2

(òîëüêî èíôîðìàöèîííûå ñëîâà) f k c d e z d Ìàñêà ïîäîáèÿ ïåðâîãî òåêñòà

âòîðîìó ([];[3];[4,7];[5];[1])

Ìàñêà ïîäîáèÿ âòîðîãî òåêñòà

ïåðâîìó ([5];[];[2];[3];[4];[];[3])

Çäåñü, êàê è â ïðåäûäóùèõ ïðèìåðàõ, êàæäàÿ áóê-âà îáîçíà÷àåò îäíî èíôîðìàöèîííîå ñëîâî. Õîòÿ òðóäíî ïðåäñòàâèòü ðåàëüíûé ýêâèâàëåíò ïðèâåäåí-íûõ ïîñëåäîâàòåëüíîñòåé áóêâ, òåì íå ìåíåå, ïðè-ìåð íàãëÿäíî äåìîíñòðèðóåò, ÷òî òàêîå ìàñêè ïî-äîáèÿ. Òàêæå õî÷åòñÿ îòìåòèòü, ÷òî â êà÷åñòâå êàæ-äîé áóêâû ìîæåò âûñòóïàòü íå òîëüêî ñëîâî, íî è íåêîòîðîå ïîíÿòèå, ïðåäëîæåíèå èëè öåëûé àáçàö.

Äëÿ ïðîñòîòû áóäåì ñ÷èòàòü, ÷òî ïàðàìåòðû îêíà äîñòàòî÷íî ìÿãêèå (çíà÷åíèÿ øèðèíû è äëèíû áîëü-øèå, à ïîðîã çàïîëíåíèÿ ìàëåíüêèé), ÷òîáû âñå ïàðû ñëîâ äâóõ òåêñòîâ íå áûëè îòñåÿíû è ïîïàëè âî âòî-ðóþ ãðóïïó. Òàêîå óïðîùåíèå ðàñïðîñòðàíÿåòñÿ è íà âñå ïîñëåäóþùèå ïðèìåðû.

Êðóãëûå ñêîáêè â ïðèìåðå îáîçíà÷àþò íà÷àëî è êîíåö ìàñêè ïîäîáèÿ. Êîëè÷åñòâî ïàð êâàäðàòíûõ ñêîáîê, ðàçäåëåííûõ òî÷êîé ñ çàïÿòîé, ðàâíî

êîëè-÷åñòâó èíôîðìàöèîííûõ ñëîâ ñîîòâåòñòâóþùåãî òåê-ñòà (äëÿ ìàñêè ïîäîáèÿ ïåðâîãî òåêòåê-ñòà âòîðîìó – ïÿòü ñëîâ, äëÿ ìàñêè ïîäîáèÿ âòîðîãî òåêñòà ïåðâîìó – ñåìü ñëîâ). Êàæäàÿ êâàäðàòíàÿ ñêîáêà ñîîòâåòñòâóåò îäíîìó ñëîâó, òî åñòü ïåðâàÿ êâàäðàòíàÿ ñêîáêà ïåð-âîé ìàñêè ñîîòâåòñòâóåò ïåðâîìó ñëîâó ïåðâîãî òåê-ñòà, âòîðàÿ ñêîáêà – âòîðîìó ñëîâó è ò. ä.

Ðàçáåðåì ïîäðîáíî ïåðâóþ ìàñêó. Ïåðâûå êâàä-ðàòíûå ñêîáêè ïóñòûå – ýòî çíà÷èò, ÷òî ïåðâîå

ñëî-âî ïåðñëî-âîãî òåêñòà íå èìååò ïàðû ñî ñëîâàìè âòîðî-ãî òåêñòà. Âî âòîðûõ êâàäðàòíûõ ñêîáêàõ ñòîèò öèô-ðà 3 – ýòî çíà÷èò, ÷òî âòîðîå ñëîâî ïåðâîãî òåêñòà èìååò ïàðó ñ òðåòüèì ñëîâîì âòîðîãî òåêñòà.  òðå-òüèõ êâàäðàòíûõ ñêîáêàõ ñòîÿò äâå öèôðû ÷åðåç çà-ïÿòóþ, óêàçûâàþùèå íà íàëè÷èå ó òðåòüåãî ñëîâà ïåðâîãî òåêñòà äâóõ ïàð ñ ÷åòâåðòûì è ñåäüìûì ñëî-âàìè âòîðîãî òåêñòà. ×åòâåðòîå è ïÿòîå ñëîâà ïåð-âîãî òåêñòà èìåþò ïàðû ñ ïÿòûì è ïåðâûì ñëîâàìè âòîðîãî òåêñòà, ñîîòâåòñòâåííî.

2.6. Îáùàÿ ìàòðèöà ïîäîáèÿ

Îáùàÿ ìàòðèöà ïîäîáèÿ ýòî – äâóõìåðíàÿ ìàòðè-öà, êàæäûé ñòîëáåö êîòîðîé ñîîòâåòñòâóåò îäíîìó òåêñòîâîìó ñîîáùåíèþ, à êàæäàÿ ñòðîêà ñîäåðæèò íîìåðà ñâÿçàííûõ ìåæäó ñîáîé ñëîâ ñîîòâåòñòâó-þùèõ òåêñòîâ. Îáùàÿ ìàòðèöà ïîäîáèÿ ñòðîèòñÿ íà îñíîâàíèè ìàñîê ïîäîáèÿ âñåõ ïàð àíàëèçèðó-åìûõ òåêñòîâ. Åñëè ó êàêîãî-íèáóäü ñëîâà íåò ïàðû â êàêîì-íèáóäü òåêñòå, òî âìåñòî íîìåðà ïàðíîãî ñëîâà ìîæíî ïîñòàâèòü 0 èëè îñòàâèòü ÿ÷åéêó ïóñòîé. Ïðèìåð ìàòðèöû ïîäîáèÿ äëÿ òåê-ñòîâ èç òàáë. 2 ïðèâåäåí íà ðèñ. 11.

Ðèñ. 11. Îáùèå ìàòðèöû ïîäîáèÿ äëÿ òðåõ òåêñòîâ (11à – íîìåðà ñëîâ òåêñòîâ, 11á – ñëîâà òåêñòîâ)

Êàæäóþ ñòðîêó îáùåé ìàòðèöû ïîäîáèÿ ìîæíî èíòåðïðåòèðîâàòü êàê ïîëíîñâÿçíûé ãðàô, ñîñòîÿ-ùèé èç íåíóëåâûõ ýëåìåíòîâ ýòîé ñòðîêè. Òî åñòü, åñëè âçÿòü ëþáûå äâà íåíóëåâûõ ýëåìåíòà âûáðàí-íîé ñòðîêè, òî â ìàñêàõ ïîäîáèÿ ñîîòâåòñòâóþùèõ òåêñòîâ áóäåò ïðèñóòñòâîâàòü ñâÿçü ìåæäó ýòèìè ýëå-ìåíòàìè. Ïðèìåð, èëëþñòðèðóþùèé äàííîå ñâîé-ñòâî îáùåé ìàòðèöû ïîäîáèÿ, ïðèâåäåí íà ðèñ. 12.

Åùå îäíèì âàæíûì ñâîéñòâîì îáùåé ìàòðèöû ïîäîáèÿ ÿâëÿåòñÿ òî, ÷òî íè îäíà ñòðîêà ìàòðèöû íå ÿâëÿåòñÿ ïîäñòðîêîé äðóãîé ñòðîêè ìàòðèöû.

Èíûìè ñëîâàìè, åñëè âçÿòü ìíîæåñòâî ïîëíîñ-âÿçíûõ ãðàôîâ âñåõ ñòðîê ìàòðèöû, òî íè îäèí ãðàô íå áóäåò ÿâëÿòüñÿ ïîäãðàôîì äðóãîãî ãðàôà.

Äëÿ i-é ñòðîêè îáùåé ìàòðèöû ïîäîáèÿ, èçîáðàæåí-íîé íà ðèñ. 13, äàííîå ñâîéñòâî îçíà÷àåò, ÷òî íè îäíà äðóãàÿ ñòðîêà íå áóäåò ñîäåðæàòü ýëåìåíòû 4, 5, 12 ïåðâûõ òðåõ òåêñòîâ è íåíóëåâîé ýëåìåíò ÷åòâåðòîãî è/èëè ïÿòîãî òåêñòîâ (ðèñ. 13).

Îáùàÿ ìàòðèöà ïîäîáèÿ, îáëàäàþùàÿ âûøå-îïèñàííûìè ñâîéñòâàìè, çíà÷èòåëüíî óïðîùàåò ïðîöåññ äàëüíåéøåé îáðàáîòêè òåêñòîâûõ ñîîá-ùåíèé.

Ðèñ. 12. Ñâÿçè ìåæäó ýëåìåíòàìè îáùåé ìàòðèöû ïîäîáèÿ Ðèñ. 13. Ñòðîêè îáùåé ìàòðèöû ïîäî-áèÿ íå ìîãóò áûòü ïîäñòðîêàìè äðóã

äðóãà Òàáëèöà 2

Òåêñòû è ìàñêè ïîäîáèÿ

Òåêñò 1 a b c

Òåêñò 2 a c a

Òåêñò 3 d e b b a g

Ìàñêè ïîäîáèÿ

ïåðâîãî òåêñòà âòîðîìó ([1,3];[];[2]) ïåðâîãî òåêñòà òðåòüåìó ([5];[3,4];[]) âòîðîãî òåêñòà ïåðâîìó ([1];[3];[1]) âòîðîãî òåêñòà òðåòüåìó ([5];[];[5]) òðåòüåãî òåêñòà ïåðâîìó ([];[];[2];[2];[1];[]) òðåòüåãî òåêñòà âòîðîìó ([];[];[];[];[1,3];[])

2.7. Àëãîðèòì ïîñòðîåíèÿ îáùåé ìàòðèöû ïîäîáèÿ

Àëãîðèòì ïîñòðîåíèÿ îáùåé ìàòðèöû ïîäîáèÿ ìî-æåò áûòü ðàçáèò íà èòåðàöèè, â êàæäîé èç êîòîðûõ ê ìàòðèöå äîáàâëÿåòñÿ íîâûé ñòîëáåö, îòíîñÿùèéñÿ ê î÷åðåäíîìó òåêñòó.  íà÷àëüíûé ìîìåíò âðåìåíè ìàòðèöà ïóñòàÿ.

Íà ïåðâîé èòåðàöèè áåðåòñÿ îäèí, ñëó÷àéíî âûáðàííûé òåêñò. Òàê êàê â ìàòðèöå íè÷åãî íåò, òî âñå ýëåìåíòû âûáðàííîãî òåêñòà ïðîñòî âñòàâ-ëÿþòñÿ â ïåðâûé ñòîëáåö ìàòðèöû. Ïîëó÷àåòñÿ ìàòðèöà, ñîñòîÿùàÿ èç îäíîãî ñòîëáöà, â ñòðîêàõ êîòîðîé íàõîäÿòñÿ íîìåðà âñåõ êëþ÷åâûõ ñëîâ âûáðàííîãî òåêñòà.

Äîïóñòèì, áûëà ïðîäåëàíà i– 1 èòåðàöèÿ, è òå-ïåðü îáùàÿ ìàòðèöà ïîäîáèÿ ñîñòîèò èç i– 1 ñòîëá-öà. Òåïåðü íåîáõîäèìî äîáàâèòü â ìàòðèöó i-é òåêñò.

Äëÿ ýòîãî íåîáõîäèìî âçÿòü âñå ìàñêè ïîäîáèÿ i-ãî òåêñòà ñ òåêñòàìè, óæå âñòàâëåííûìè â ìàòðèöó.

Êîëè÷åñòâî òàêèõ ìàñîê ðàâíî i– 1.

Äëÿ êàæäîãî ñëîâà (íîìåð ñëîâà – j) i-ãî òåêñòà íåîáõîäèìî ñîñòàâèòü ñòðîêó êàíäèäàòà íà òî, ÷òîáû áûòü âñòàâëåííîé â ìàòðèöó. Äëÿ ýòîãî íàäî ïðî-ñìîòðåòü âñå ìàñêè ïîäîáèÿ i-ãî òåêñòà ñ òåêñòà-ìè îò 1 äî i– 1 è íàéòè íîìåðà ñëîâ ñîîòâåòñòâóþ-ùèõ òåêñòîâ, èìåþñîîòâåòñòâóþ-ùèõ ïàðó ñ j-ì ñëîâîì i-ãî òåêñòà.

Åñëè â êàêîé-íèáóäü èç ìàñîê òàêèõ ïàð áóäåò íå-ñêîëüêî, òî êàæäûé âàðèàíò ðàññìàòðèâàåòñÿ îòäåëü-íî. Òî åñòü êîëè÷åñòâî ñòðîê êàíäèäàòîâ äëÿ j-ãî ñëî-âà i-ãî òåêñòà áóäåò ðàâíî ïðîèçâåäåíèþ êîëè÷åñòâ ïàð äëÿ ýòîãî ñëîâà â êàæäîé èç ìàñîê ïîäîáèÿ i-ãî òåêñòà ñ òåêñòàìè îò 1 äî i– 1, â êîòîðûõ ïðèñóòñòâó-åò õîòÿ áû îäíà ïàðà. Òàêèì îáðàçîì, êîëè÷åñòâî ñòðîê êàíäèäàòîâ ìîæíî ðàññ÷èòàòü ïî ôîðìóëå:

∑−

= 1

1

), ( i

k

j , k , i

Number (3)

ãäå k, i – íîìåðà òåêñòîâ;

j – íîìåð ñëîâà â i-ì òåêñòå;

Number(i, k, j) – âîçâðàùàåò êîëè÷åñòâî ïàð j-ãî ñëîâà â ìàñêå ïîäîáèÿ i-ãî òåêñòà k-ìó.

Åñëè òàêèõ ïàð íåò, òî âîçâðàùàåòñÿ 1.

Íàïðèìåð, ìû ðàññìàòðèâàåì ïåðâîå ñëîâî äåñÿ-òîãî òåêñòà. Áåðåì ìàñêè ïîäîáèÿ äåñÿäåñÿ-òîãî òåêñòà ñî âñåìè ïðåäûäóùèìè òåêñòàìè îò ïåðâîãî äî äåâÿòî-ãî. Ïóñòü â ïåðâûõ ïÿòè ìàñêàõ ïåðâîå ñëîâî äåñÿòî-ãî òåêñòà èìååò ïî îäíîé ïàðå, â øåñòîé – äâå ïàðû, ñåäüìîé è âîñüìîé – ïàð íåò, à â äåâÿòîé òðè ïàðû.

Òîãäà êîëè÷åñòâî ñòðîê êàíäèäàòîâ ðàâíî:

1*1*1*1*1*2*1*1*3 = 6.

Êàæäàÿ ñòðîêà êàíäèäàò j-ãî ñëîâà i-ãî òåêñòà èìååò äëèíó – i.  íåé íà ïîçèöèÿõ îò 1 äî i– 1 ñòîÿò íîìåðà ñëîâ ñîîòâåòñòâóþùåãî òåêñòà (ïàðíûõ j-ìó ñëîâó i-ãî), à íà i-é ïîçèöèè ñòîèò íîìåð j. Ïðèìåð ñòðîêè êàíäèäàòà è ñîîòâåòñòâóþùèé åé ãðàô èçîá-ðàæåí íà ðèñ. 14.

Ïåðåä òåì, êàê âñòàâèòü ñòðîêó êàíäèäàò â ìàòðè-öó íåîáõîäèìî óáåäèòüñÿ, ÷òî âñå ýëåìåíòû ñòðîêè ñâÿçàíû ìåæäó ñîáîé, òî åñòü ñòðîêà êàíäèäàò ïðåä-ñòàâëÿåò èç ñåáÿ ïîëíîñâÿçíûé ãðàô. Äëÿ ýòîãî íå-îáõîäèìî ïðîâåðèòü ñâÿçè â ñîîòâåòñòâóþùèõ

ìàñ-Ðèñ. 14. Ïðèìåð ñòðîêè êàíäèäàòà

êàõ ïîäîáèÿ ìåæäó ýëåìåíòàìè ñòðîêè îò 1 äî i– 1.

Äëÿ ñòðîêè êàíäèäàòà, èçîáðàæåííîé íà ðèñóíêå 14, ñâÿçè, êîòîðûå íåîáõîäèìî ïðîâåðèòü, ïðèâåäåíû íà ðèñ. 15 ïóíêòèðíûìè ëèíèÿìè.

Åñëè âî âðåìÿ ïðîâåðêè îêàæåòñÿ, ÷òî ìåæäó äâó-ìÿ ýëåìåíòàìè ñòðîêè (íîìåðà òåêñòîâ z è k) ñâÿçè íå ñóùåñòâóåò, òîãäà ñòðîêó êàíäèäàòà íåîáõîäèìî ðàçáèòü íà äâå ñòðîêè. Ýòî ìîæíî îñóùåñòâèòü çà äâà øàãà. Íà ïåðâîì øàãå ñòðîêà êàíäèäàò ïðîñòî äóá-ëèðóåòñÿ. Íà âòîðîì øàãå â ïåðâîé ñòðîêå óáèðàåòñÿ (çàìåíÿåòñÿ íóëåì) ýëåìåíò òåêñòà ñ íîìåðîì z, à âî âòîðîé ñòðîêå – ýëåìåíò òåêñòà ñ íîìåðîì k. Íàïðè-ìåð, ñòðîêà èç ðèñ. 16 íå èìååò ñâÿçè ìåæäó ýëåìåí-òàìè âòîðîãî è (i– 2)-ãî òåêñòîâ. Ðåçóëüòàò ðàçáèå-íèÿ ñòðîêè ïðåäñòàâëåí íà ðèñ. 16.

Ïîñëå òîãî, êàê áóäóò ïðîâåðåíû âñå íåîáõîäè-ìûå ñâÿçè, ìû ïîëó÷èì íàáîð ñòðîê êàíäèäàòîâ, êî-òîðûå áóäóò ÿâëÿòüñÿ ïîëíîñâÿçíûìè ãðàôàìè. Ïå-ðåä òåì êàê âñòàâèòü êàæäóþ ñòðîêó â ìàòðèöó, íå-îáõîäèìî óäàëèòü èç ìàòðèöû âñå ñòðîêè, êîòîðûå ÿâëÿþòñÿ ïîäñòðîêàìè âñòàâëÿåìîé ñòðîêè. Ïîä-ñòðîêîé âñòàâëÿåìîé ñòðîêè ÿâëÿåòñÿ ñòðîêà, âñå íåíóëåâûå (íå ïóñòûå) ýëåìåíòû êîòîðîé ñîâïàäàþò ñ ñîîòâåòñòâóþùèìè ýëåìåíòàìè âñòàâëÿåìîé ñòðî-êè.  òàáë. 3 ïðèâåäåíû ïðèìåðû ïîäñòðîê.

Ðèñ. 15. Íàëè÷èå ñâÿçåé (ïóíêòèðíûå ëèíèè) ãàðàíòèðóåò, ÷òî ñòðîêà êàíäèäàò – ïîëíîñâÿçíûé

ãðàô

Òàáëèöà 3 Ïðèìåðû ïîäñòðîê

Ñòðîêà 1; 0; 9; 12; 0; 8; 4 Ïðèìåðû ïîäñòðîê 1; 0; 9; 0; 0; 0; 0

0; 0; 0; 12; 0; 8; 4 1; 0; 9; 12 1

Âñòàâèâ â ìàòðèöó âñå ñòðîêè êàíäèäàòû âñåõ ñëîâ i-ãî òåêñòà, ìû ïîëó÷èì îáùóþ ìàòðèöó ïî-äîáèÿ äëÿ òåêñòîâ îò 1 äî i.

2.8. Öåííîñòü ñîîáùåíèÿ

Îñíîâíîå ïðåäïîëîæåíèå, íà êîòîðîì îñíîâûâà-åòñÿ ìåòîä ðàñ÷åòà öåííîñòè ñîîáùåíèé,

çàêëþ-÷àåòñÿ â òîì, ÷òî êîëè÷åñòâî èíôîðìàöèè â ñîîá-ùåíèè ïðÿìî ïðîïîðöèîíàëüíî åãî äëèíå. Òî åñòü òåêñò, íàïèñàííûé íà äåñÿòè ëèñòàõ, ñêîðåå âñå-ãî, áóäåò ñîäåðæàòü áîëüøå ïîëåçíîé èíôîðìà-öèè, ÷åì òåêñò, íàïèñàííûé íà îäíîì ëèñòå. Ïî-ýòîìó áîëåå äëèííûå ñîîáùåíèÿ äîëæíû èìåòü áîëüøóþ öåííîñòü. Êîíå÷íî, ýòî óñëîâèå ðàáîòà-åò, åñëè îáà òåêñòà íàïèñàíû îá îäíîì ñîáûòèè è ñîñòàâëåíû êîððåêòíî, òî åñòü íå ñîäåðæàò áåñ-ñìûñëåííûé íàáîð ñëîâ. Òàêæå ñòîèò îòìåòèòü åùå íåñêîëüêî âàæíûõ ìîìåíòîâ, êîòîðûå ïîÿñ-íÿþò ñïîñîá ðàñ÷åòà öåííîñòè ñîîáùåíèé.

Âî-ïåðâûõ, ëþáûå íåñåìàíòè÷åñêèå ìåòîäû, òî åñòü ìåòîäû, êîòîðûå íå ðàáîòàþò ñî ñìûñëîì, íå ìîãóò óêàçàòü íà âàæíîñòü òåõ èëè èíûõ ÷àñòåé òåêñòà, àíàëèçèðóÿ åãî îáîñîáëåííî. Ðàññìàòðèâà-åìûé ìåòîä íå èñêëþ÷åíèå. Äëÿ íàãëÿäíîñòè ïðåä-ñòàâüòå òåêñò íà àðàáñêîì ÿçûêå. Âû íå ñìîæåòå âûäåëèòü â íåì âàæíûå ÷àñòè íà îñíîâàíèè òîëü-êî îáùèõ çíàíèé î ÿçûêå, íå èìåÿ òåçàóðóñà.

Ïîýòîìó âàæíûå ÷àñòè íîâîñòíûõ ñîîáùåíèé â ñóùåñòâóþùèõ ìåòîäàõ âûäåëÿþòñÿ íà îñíîâàíèè

÷àñòîòû âñòðå÷àåìîñòè ýòèõ ÷àñòåé â ãðóïïå ñîîá-ùåíèé.

Âî-âòîðûõ, èíôîðìàöèÿ èç ðàçëè÷íûõ èñòî÷-íèêîâ èìååò ðàçíóþ öåííîñòü. Ñîîáùåíèå èí-ôîðìàöèîííîãî àãåíòñòâà «ÐÈÀ Íîâîñòè» áóäåò áîëåå öåííûì, ÷åì èíôîðìàöèÿ ñ áëîãà Èâàíà Èâàíîâè÷à. Õîòÿ öåííîñòü – ïîíÿòèå

îòíîñèòåëü-Ðèñ. 16. Ðàçáèåíèå ñòðîêè êàíäèäàòà íà äâå ñòðîêè

íîå, è ìîæåò áûòü äëÿ äðóãà Èâàíà Èâàíîâè÷à èí-ôîðìàöèÿ ñ áëîãà ïðåäñòàâëÿåò áîëüøóþ öåííîñòü.

Â-òðåòüèõ, íåêîòîðûå ñîîáùåíèÿ ìîãóò äóáëèðî-âàòü îäíó è òó æå èíôîðìàöèþ. Íàïðèìåð, ñîîáùå-íèå ìîæåò ñîäåðæàòü îãëàâëåñîîáùå-íèå. Òàêîå äóáëèðîâà-íèå èíôîðìàöèè íå äîëæíî ïîâûøàòü îòíîñèòåëü-íóþ öåííîñòü ñîîáùåíèÿ. Ïîýòîìó ñîîáùåíèå «ab»

äîëæíî èìåòü òàêóþ æå öåííîñòü, êàê è ñîîáùåíèå

«aab» èëè «aba».

Îáùàÿ ìàòðèöà ïîäîáèÿ äàåò âîçìîæíîñòü ðàñ-ñ÷èòàòü öåííîñòè ñîîáùåíèé ñ ó÷åòîì ñäåëàííûõ ïðåäïîëîæåíèé.

Ïóñòü áûë ïðîâåäåí àíàëèç öåííîñòè èñòî÷íè-êîâ ñîîáùåíèé, è êàæäîìó èç èñòî÷íèèñòî÷íè-êîâ áûëî ïðèñâîåíî íåîòðèöàòåëüíîå ÷èñëî, õàðàêòåðèçóþ-ùåå åãî îòíîñèòåëüíóþ öåííîñòü â ãðóïïå èñòî÷-íèêîâ: [k1; k2; ...; kn–1; kn],

ãäå ki – öåííîñòü i-ãî èñòî÷íèêà;

n – êîëè÷åñòâî èñòî÷íèêîâ.

Ïóñòü íåîáõîäèìî âû÷èñëèòü öåííîñòü i-ãî èñòî÷íèêà. Äëÿ ýòîãî íåîáõîäèìî âûáðàòü â îá-ùåé ìàòðèöå ïîäîáèÿ ñòðîêè, â êîòîðûõ i-é ñòîë-áåö èìååò íåíóëåâûå ýëåìåíòû, è ïîñ÷èòàòü â âûáðàííûõ ñòðîêàõ ìàòðèöû êîëè÷åñòâî íåíóëå-âûõ ýëåìåíòîâ â êàæäîì ñòîëáöå. Ïðè ýòîì êàæ-äûé ýëåìåíò ñòîëáöà ñ÷èòàåòñÿ òîëüêî îäèí ðàç, âíå çàâèñèìîñòè îò òîãî, ñêîëüêî ðàç îí âñòðå÷à-åòñÿ â ñòîëáöå. Çàòåì ïîñ÷èòàííûå çíà÷åíèÿ óì-íîæàþòñÿ íà ñîîòâåòñòâóþùóþ ñòîëáöó öåííîñòü è ñêëàäûâàþòñÿ ìåæäó ñîáîé.

Îïèñàííûé àëãîðèòì ïîäñ÷åòà öåííîñòè ñîîá-ùåíèé ìîæíî ïðåäñòàâèòü â âèäå ôîðìóëû:

, 1

) ) ) (

∑ (

= ⋅

= n

j Number ( Rows i , j k j

Value i

(4)

ãäå Valuei – öåííîñòü i-ãî ñîîáùåíèÿ;

j – íîìåð ñòîëáöà îáùåé ìàòðèöû ïîäîáèÿ;

Rows(i) – ôóíêöèÿ âîçâðàùàåò ìàññèâ íîìåðîâ ñòðîê, â êîòîðûõ i-å ñîîáùåíèå èìååò íåíóëåâûå ýëå-ìåíòû;

Number(Mas, j) – ôóíêöèÿ âîçâðàùàåò êîëè÷å-ñòâî íåíóëåâûõ ýëåìåíòîâ ñòîëáöà j â ñòðîêàõ Mas.

Ó÷èòûâàåòñÿ òîëüêî ïåðâîå âõîæäåíèå êàæäîãî ýëåìåíòà.

Òàêîé ïîäñ÷åò öåííîñòè ñîîáùåíèé ãàðàíòèðó-åò, ÷òî åñëè ñîîáùåíèå «ab» è èìååò áîëüøóþ öåí-íîñòü ÷åì, ñîîáùåíèå «ac», òî îíî òàêæå áóäåò áîëåå öåííûì ïî ñðàâíåíèþ ñ ñîîáùåíèåì «aaac».

Òàêæå ñóùåñòâóåò âîçìîæíîñòü äëÿ èíäèâèäóà-ëèçàöèè ïðîöåññà ïîäñ÷åòà öåííîñòè ñîîáùåíèé.

Äëÿ ýòîãî íåîáõîäèìî âûñòàâèòü öåííîñòè èñòî÷íè-êîâ ñîîáùåíèé â ñîîòâåòñòâèè ñ ïðåäïî÷òåíèÿìè ïîëüçîâàòåëÿ. Ïðè÷åì, åñëè îí íå õî÷åò ïîëüçîâàòü-ñÿ èíôîðìàöèåé èç êàêîãî-íèáóäü èñòî÷íèêà, òî ìîæíî ïðîñòî ïðèðàâíÿòü öåííîñòü ýòîãî èñòî÷íè-êà ê íóëþ, è òîãäà ñîîáùåíèÿ èç ýòîãî èñòî÷íèèñòî÷íè-êà íå áóäóò âëèÿòü íà ðåçóëüòàò ïîäñ÷åòà öåííîñòè ñîîá-ùåíèé.

2.9. Îñòàòî÷íàÿ öåííîñòü

Îäíèì èç ãëàâíûõ äîñòîèíñòâ îáùåé ìàòðèöû ïîäî-áèÿ ÿâëÿåòñÿ âîçìîæíîñòü âû÷èñëÿòü îñòàòî÷íûå öåííîñòè íåïðî÷èòàííûõ ñîîáùåíèé. Ýòî ïîçâîëÿ-åò îöåíèâàòü, êàêèå íåïðî÷èòàííûå ñîîáùåíèÿ ãðóï-ïû ñîäåðæàò íîâóþ èíôîðìàöèþ, íå âîøåäøóþ â ïðî÷èòàííûå ñîîáùåíèÿ. Áîëåå òîãî, ìîæíî íå òîëü-êî íàéòè ñîîáùåíèÿ ñ íîâîé èíôîðìàöèåé, íî è ïî-íÿòü, êàêèå èìåííî ÷àñòè ñîîáùåíèé ñîäåðæàò ýòó èíôîðìàöèþ.

Îáùèé àëãîðèòì ïîäñ÷åòà îñòàòî÷íîé öåííîñ-òè ñîîáùåíèé àíàëîãè÷åí îïèñàííîìó â ïðåäûäó-ùåì ïàðàãðàôå. Åäèíñòâåííîå îòëè÷èå çàêëþ÷àåò-ñÿ â òîì, ÷òî ïåðåä ïîäñ÷åòîì îñòàòî÷íîé öåííî-ñòè íåîáõîäèìî èñêëþ÷èòü èç ìàòðèöû âñå ñòðî-êè, êîòîðûå èìåþò íåíóëåâûå ýëåìåíòû â ñòîëá-öàõ, ñîîòâåòñòâóþùèõ ïðî÷èòàííûì ñîîáùåíèÿì.

Îïèñàííûé àëãîðèòì ïîäñ÷åòà îñòàòî÷íîé öåííîñ-òè ñîîáùåíèé ìîæíî ïðåäñòàâèòü â âèäå ôîðìóëû:

∑= ⋅

= n

j Number Rowsi MinusRows j kj RValuei

1

), ) ), ,

( (

( (5)

ãäå RValuei – îñòàòî÷íàÿ öåííîñòü öåííîñòü i-ãî ñîîáùåíèÿ;

j – íîìåð ñòîëáöà îáùåé ìàòðèöû ïîäîáèÿ;

MinusRows – ìàññèâ ñòðîê, â êîòîðûõ ïðî÷è-òàííûå ñîîáùåíèÿ èìåþò íåíóëåâûå ýëåìåíòû;

Rows(i, MinusRows) – ôóíêöèÿ âîçâðàùàåò ìàñ-ñèâ íîìåðîâ ñòðîê, â êîòîðûõ i-å ñîîáùåíèå èìååò íåíóëåâûå ýëåìåíòû, èñêëþ÷àÿ ñòðîêè MinusRows;

Number(Mas, j) – ôóíêöèÿ âîçâðàùàåò êîëè÷å-ñòâî íåíóëåâûõ ýëåìåíòîâ ñòîëáöà j â ñòðîêàõ Mas.

Ó÷èòûâàåòñÿ òîëüêî ïåðâîå âõîæäåíèå êàæäîãî ýëå-ìåíòà.

Íà ðèñ. 17 ïðèâåäåíà ñõåìà îáðàáîòêè ãðóïïû ñîîáùåíèé íà îñíîâàíèè ïðåäëîæåííîãî àëãîðèò-ìà.

ドキュメント内 untitled (ページ 154-161)