ïåðâóþ î÷åðåäü áûëî ïðîâåäåíî ñðàâíåíèå ìåæäó ñîáîé ìåòðè÷åñêèõ ìåòîäîâ MSEL è MLSA äëÿ ðàçíîãî êîëè÷åñòâà îñòàâëÿåìûõ ðàçìåðíîñòåé.
Îêàçàëîñü, ÷òî MSEL íè â îäíîì èç ïðîäåëàííûõ ýêñïåðèìåíòîâ íå äàë ðåçóëüòàò, ëó÷øèé, ÷åì MLSA, ÷òî, âî-ïåðâûõ, ñîãëàñóåòñÿ ñ èìåþùèìè-ñÿ â ëèòåðàòóðå óêàçàíèÿìè íà î÷åíü âûñîêóþ ýôôåêòèâíîñòü ïîñëåäíåãî, à âî-âòîðûõ, ÿâëÿåòñÿ êîñâåííûì ñâèäåòåëüñòâîì àäåêâàòíîñòè âûáðàí-íîãî ìåòîäà îöåíêè êà÷åñòâà êëàñòåðèçàöèè.
Çàâèñèìîñòü ðåçóëüòàòîâ ýòèõ ìåòîäîâ îò ðàçìåð-íîñòè ïðîñòðàíñòâà êëàñòåðèçàöèè ïðåäñòàâëåíà íà ðèñ. 2.
Èíòåðåñíî, ÷òî ðåçóëüòàòû, ïîëó÷àåìûå ñ èñïîëü-çîâàíèåì ìåòîäà MLSA, âåñüìà íåñèëüíî
âàðüèðó-þòñÿ äëÿ ðàçìåðíîñòåé ïðîñòðàíñòâà êëàñòåðèçàöèè, èçìåíÿþùèõñÿ ïî÷òè íà äâà ïîðÿäêà (äëÿ MSEL ýòà çàâèñèìîñòü áûëà ãîðàçäî ñèëüíåå). Óñòîé÷èâîñòü ïî îòíîøåíèþ ê íåïðàâèëüíîìó âûáîðó íàñòðîå÷íûõ ïàðàìåòðîâ, áåçóñëîâíî, íàäî îòíåñòè ê äîñòîèí-ñòâàì ìåòîäà. Îòìåòèì, ÷òî äëÿ ìåòîäà KTPB ýòà ïðîáëåìà âîîáùå íå ñòîèò, òàê êàê ó íåãî íåò íàñòðî-å÷íûõ ïàðàìåòðîâ.  êà÷åñòâå îêîí÷àòåëüíîãî
çíà-÷åíèÿ ðàçìåðíîñòè, âûáðàííîãî äëÿ öåëè ñðàâíåíèÿ ìåòîäîâ MLSA è KTPB, ìíîé áûëî ïðèíÿòî 300, ÷òî ÿâëÿåòñÿ îïòèìàëüíûì ïî âñåé ñîâîêóïíîñòè ïðîâå-äåííûõ ýêñïåðèìåíòîâ.
Ðåçóëüòàòû ýòîãî ñðàâíåíèÿ ïðåäñòàâëåíû â òàáë. 1.
Òàáëèöà 1 Ðåçóëüòàòû êëàñòåðèçàöèè äëÿ ìåòîäîâ
MLSA è KTPB
Ýêñïåðèìåíò MLSA KTPB
Wl 28.27 35.49
Wh 29.04 33.79
Ql 68.53 34.06
Qh 71.12 37.16
N 94.63 52.76
H 84.91 86.1
Cl 34.79 23.61
Ch 29.31 23.03
Êàê âèäíî èç ýòîé òàáëèöû, â òðåõ ýêñïåðèìåí-òàõ èç âîñüìè ìåòîä KTPB ïîêàçàë ëó÷øèå ðåçóëüòà-òû, õîòÿ â íåñêîëüêèõ ýêñïåðèìåíòàõ åãî ðåçóëüòàòû áûëè ñóùåñòâåííî õóæå, ÷åì ó MLSA. Êàê è îæèäà-ëîñü, ïðåèìóùåñòâà KTPB ïðîÿâèëèñü òàì, ãäå êîð-ïóñ ñîñòîÿë èç î÷åíü ðàçíîîáðàçíûõ òåêñòîâ, ëèáî âêëþ÷àë ìíîãî ìåëêèõ òåêñòîâ. È â òîì è â äðóãîì ñëó÷àå íàëè÷èå áîëüøîãî êîëè÷åñòâà ñìûñëîâûõ ñëîâ, âñòðå÷àþùèõñÿ ëèøü â ìàëîì ïðîöåíòå òåê-ñòîâ, ïðåïÿòñòâóåò ïðàâèëüíîìó îïðåäåëåíèþ áëè-çîñòè òåêñòîâ áåç ó÷åòà ñìûñëîâîé áëèáëè-çîñòè ñàìèõ ýòèõ ñëîâ.
Òåïåðü ðàññìîòðèì âòîðîé êðèòåðèé ñðàâíåíèÿ ìåòîäîâ êëàñòåðèçàöèè àäåêâàòíîñòü ñìûñëîâîé ïîìåòêè íàéäåííûõ êëàñòåðîâ.  ìåòðè÷åñêèõ ìåòî-äàõ îñíîâíîé õàðàêòåðèñòèêîé íàéäåííûõ êëàñòåðîâ ÿâëÿþòñÿ êîîðäèíàòû èõ öåíòðîèäîâ. Ïîñêîëüêó ðàç-ìåðíîñòü ïðîñòðàíñòâà êëàñòåðèçàöèè âåëèêà, äëÿ áîëåå-ìåíåå ëàêîíè÷íîé õàðàêòåðèñòèêè áåðåòñÿ íåêîòîðîå êîëè÷åñòâî íàèáîëåå îòëè÷àþùèõñÿ îò 0 êîîðäèíàò. Òàê êàê êàæäîé ðàçìåðíîñòè ñîîòâåòñòâó-åò íåêîòîðûé òåðì, òî ñîîòâñîîòâåòñòâó-åòñòâóþùèé íàáîð òåð-ìîâ è èñïîëüçóåòñÿ äëÿ ïîìåòêè äàííîãî êëàñòåðà.
Íåñêîëüêî áîëåå ñëîæíàÿ ñèòóàöèÿ èìååò ìåñòî â ìåòîäå MLSA, òàê êàê â ýòîì ñëó÷àå ðàçìåðíîñòè ïðîñòðàíñòâà êëàñòåðèçàöèè ÿâëÿþòñÿ ëèíåéíîé êîìáèíàöèåé ðàçìåðíîñòåé, ñîîòâåòñòâóþùèõ îò-äåëüíûì òåðìàì. Ïîñêîëüêó âêëàä êàæäîãî òåðìà â ýòó ëèíåéíóþ êîìáèíàöèþ îïðåäåëÿåòñÿ ñîîòâåò-ñòâóþùèì ÷èñëîâûì êîýôôèöèåíòîì, òî ðàçóìíî ïîìå÷àòü êàæäóþ ðàçìåðíîñòü ïðîñòðàíñòâà êëàñòå-ðèçàöèè MLSA íåêîòîðûì êîëè÷åñòâîì òåðìîâ ñ íàèáîëüøèìè êîýôôèöèåíòàìè.  äàííîì èññëåäî-Ðèñ. 2. Ðåçóëüòàòû êëàñòåðèçàöèè ñ ïîìîùüþ ìåòîäà
MLSA
0 10 20 30 40 50 60 70 80 90 100
10 100 1000
N ðàçìåðíîñòåé
Wl Wh Ql Qh N H Cl Ch
âàíèè ÿ áðàë äëÿ ïîìåòêè òðè ðàçìåðíîñòè, êàæäàÿ èç êîòîðûõ õàðàêòåðèçóåòñÿ òðåìÿ íàèáîëåå çíà÷è-ìûìè äëÿ íåå ëåêñåìàìè. Èòîãî ïîëó÷àåòñÿ äåâÿòü õàðàêòåðèçóþùèõ êëàñòåð ñëîâ, ÷òî, êàê ïðåäñòàâëÿ-åòñÿ, ÿâëÿåòñÿ ðàçóìíûì êîìïðîìèññîì ìåæäó êðàò-êîñòüþ è ïîëíîòîé îïèñàíèÿ êëàñòåðà.
 ìåòîäå KTPB ñèòóàöèÿ áîëåå ïðîñòà. Òàê êàê êàæäûé êëàñòåð õàðàêòåðèçóåòñÿ ìíîæåñòâîì åãî êëþ÷åâûõ òåðìîâ, òî íàäî ïðîñòî èç íèõ âûá-ðàòü ïîäìíîæåñòâî, íàèáîëåå ïîëíî îïèñûâàþ-ùåå âñå âõîäÿùèå â íåãî òåêñòû, à èìåííî, òå òåðìû, êîòîðûå ÿâëÿþòñÿ êëþ÷åâûìè äëÿ ñàìîãî áîëüøîãî êîëè÷åñòâà òåêñòîâ äàííîãî êëàñòåðà.
Ó÷èòûâàÿ, ÷òî êàæäûé òåðì îïèñûâàåòñÿ îò îäíîãî äî òðåõ ñëîâ, òî äëÿ òîãî, ÷òîáû îáùàÿ äëèíà îïèñà-íèÿ êëàñòåðà â ñðàâíèâàåìûõ ìåòîäàõ áûëà ïðèáëè-çèòåëüíî îäèíàêîâà, äëÿ ïîìåòêè êëàñòåðîâ áåðåòñÿ ïåðåìåííîå êîëè÷åñòâî òåðìîâ, òàê ÷òîáû îáùåå ÷èñ-ëî ñ÷èñ-ëîâ áû÷èñ-ëî ìàêñèìàëüíî áëèçêî ê äåâÿòè.
Òàê êàê êëàñòåðîâ âî âñåõ ïðîâåäåííûõ ýêñïå-ðèìåíòàõ áûëî íàéäåíî íåñêîëüêî äåñÿòêîâ, äëÿ ñðàâíåíèÿ â êàæäîì ñëó÷àå èñïîëüçóþòñÿ òðè ñàìûõ ìíîãî÷èñëåííûõ êëàñòåðà. Ðåçóëüòàòû ýòîãî ñðàâ-íåíèÿ ïðåäñòàâëåíû â òàáë. 2.  êîëîíêå KTPB ñëî-âà â êñëî-âàäðàòíûõ ñêîáêàõ ñîîòâåòñòâóþò îïèñàíèþ íåòåðìèíàëüíûõ óçëîâ àâòîòåçàóðóñà.
Îáñóäèì ðåçóëüòàòû ïî êàæäîìó èç êîðïóñîâ.
W. Äëÿ ýòîãî êîðïóñà ðåçóëüòàòû îáîèõ ìåòîäîâ íå îñîáåííî õîðîøè. MLSA âûäåëèë äâà áîëüøèõ êëàñòåðà, îòíîñÿùèõñÿ ê ñôåðå áèçíåñà, íî ÷åì îíè ðàçëè÷àþòñÿ, íåïîíÿòíî. Òðåòèé êëàñòåð ñîîòâåò-ñòâóåò, âåðîÿòíî, ðàçâëå÷åíèÿì. KTPB ñîáðàë âñå ñòðàíèöû, ñîîòâåòñòâóþùèå áèçíåñó, â îäèí áîëü-øîé êëàñòåð (íà ìîé âçãëÿä, áîëåå ïðàâèëüíî). Ïðè ýòîì ìîæíî ïîíÿòü, ÷òî òàì ñîáðàíû òåêñòû ïðî ðà-áîòó (â ðàçíîì ïîíèìàíèè), òîðãîâëþ (â ÷àñòíîñòè, Èíòåðíåò-ìàãàçèíû) è ñòðîèòåëüñòâî/òåõíîëîãèþ.
Òàê êàê òåêñòû â ýòîì êîðïóñå î÷åíü ðàçíîîáðàçíû, òî äëÿ ïîìåòêè êëàñòåðà âûáðàíû óçëû àâòîòåçàóðó-ñà î÷åíü âûñîêîãî óðîâíÿ, â òî âðåìÿ êàê ïðîâåäåí-íûé ðó÷íîé àíàëèç ïîêàçûâàåò, ÷òî êà÷åñòâî ñìûñ-ëîâîé ïîìåòêè óçëîâ äåðåâà àâòîòåçàóðóñà óõóäøàåò-ñÿ ïðè ïðèáëèæåíèè ê êîðíþ (íàïðèìåð [ìî÷ü; ýòî;
ðàáîòà]), ÷òî, â îáùåì-òî, íåóäèâèòåëüíî. Õîòÿ äàæå è â ýòîì ñëó÷àå îáùèé ñìûñë îñòàåòñÿ ïîíÿòåí. Âòî-ðîé êëàñòåð ÿâèëñÿ ðåçóëüòàòîì òåõíè÷åñêîé ïðîáëå-ìû, ñâÿçàííîé ñ íåïðàâèëüíîé èíòåðïðåòàöèåé
çíà-÷èòåëüíîãî êîëè÷åñòâà þíèêîäîâñêèõ ñòðàíèö ïðî-ãðàììîé ïîäãîòîâêè òåêñòîâûõ ìàññèâîâ. Áûëî ðå-øåíî íå âûêèäûâàòü ýòè òåêñòû èç àíàëèçà, òàê êàê â ðåàëüíîé ïðàêòèêå âñÿêîãî ðîäà èñïîð÷åííûå è ñî-äåðæàùèå «ìóñîð» òåêñòû âñòðå÷àþòñÿ äîâîëüíî ÷à-ñòî. Ìåòîä KTPB ïîìåñòèë èõ âñå â îäèí êëàñòåð, ïîìåòèâ åãî ÷àñòî âñòðå÷àþùèìèñÿ â íèõ òðîéêàìè áóêâ «ðåñ» è «ðåð», ÷òî íà ìîé âçãëÿä, ïðàâèëüíî. Íà-êîíåö ñìûñë òðåòüåãî, áîëåå óçêîòåìàòè÷åñêîãî êëà-ñòåðà, ñîâåðøåííî ÿñåí ýòî òåêñòû ïðî äîìàøíèõ æèâîòíûõ.
Q. Íà ýòîì êîðïóñå KTPB äàåò ñóùåñòâåííî ëó÷-øèå ðåçóëüòàòû. ×åì îòëè÷àþòñÿ ìåæäó ñîáîé êëàñ-òåðû, íàéäåííûå MLSA, èç èõ îïèñàíèÿ ñîâåðøåí-íî íåïîíÿòñîâåðøåí-íî. KTPB íàøåë îäèí áîëüøîé êëàñòåð, òàê èëè èíà÷å ñâÿçàííûé ñ èçâåñòíûì ðóññêèì
ðå-ôîðìàòîðîì íà÷àëà ÕÕ âåêà è åãî âëèÿíèåì íà ïî-ëèòèêó è ãîñóäàðñòâåííîå óñòðîéñòâî Ðîññèè. Âòî-ðîé êëàñòåð ñîäåðæèò îñîáóþ ãðóïïó òåêñòîâ, ïðåä-ñòàâëÿþùèõ â ýòîé ñâÿçè ïóáëèöèñòèêó è äðóãèå ìà-òåðèàëû «íàöèîíàë-ïàòðèîòîâ» â Èíòåðíåòå. Íàêî-íåö, òðåòèé ýòî Èíòåðíåò-ïóáëèêàöèè æóðíàëà
«Ïîëèòèÿ» (îòñþäà çàãàäî÷íîå «ïîëèòèå» ðåçóëü-òàò íîðìàëèçàöèè ýòîãî íåñëîâàðíîãî ñëîâà ïðîãðàì-ìîé ìîðôîëîãè÷åñêîãî àíàëèçà).
N. Îïÿòü ðåçóëüòàòû KTPB çíà÷èòåëüíî ïðåâîñ-õîäÿò MLSA, êîòîðûé òîëüêî âî âòîðîì êëàñòåðå ñî-áðàë òåìàòè÷åñêè áëèçêèå òåêñòû è ïîíÿòíî èõ ïî-ìåòèë. Ïåðâûé è òðåòèé êëàñòåðû ñìåøèâàþò íå-ñêîëüêî òåì, ÷òî õîðîøî âèäíî èç èõ ïîìåòêè. Îáðà-òèì âíèìàíèå, ÷òî äëÿ äàííîãî êîðïóñà ñèíòåòè÷åñ-êèå ðàçìåðíîñòè ïðîñòðàíñòâà êëàñòåðèçàöèè MLSA î÷åíü õîðîøî ñîîòâåòñòâóþò èìåþùèìñÿ òåìàòè÷åñ-êèì ëèíèÿì. Ïðîáëåìà ñ ïîìåòêîé çäåñü âûçâàíà ñà-ìèì ìåòðè÷åñêèì ïîäõîäîì ê êëàñòåðèçàöèè. KTPB òîëüêî â ñàìîì ìíîãî÷èñëåííîì êëàñòåðå ñìåøèâà-åò íåñêîëüêî òåìàòè÷åñêèõ ëèíèé, «îïðàâäûâàÿ» ýòî, êàê âèäíî èç ïîìåòêè ýòîãî êëàñòåðà, òåì, ÷òî âñå ýòè òåìû êàñàþòñÿ âëàñòè, ïðåçèäåíòîâ è ïð. Äâà îñòàëü-íûõ êëàñòåðà âêëþ÷àþò òåìàòè÷åñêè îäíîðîäíûå òåêñòû è ïîìå÷åíû àáñîëþòíî àäåêâàòíî.
H. Íà ýòîì êîðïóñå MLSA äàë ìàëîïîíÿòíûå ðåçóëüòàòû. Íàïðèìåð, ÷åì ðàçëè÷àþòñÿ êëàñòåðû 2 è 3, ñêàçàòü î÷åíü òðóäíî. Ñàìûé áîëüøîé êëàñòåð ñìåøèâàåò íåñêîëüêî òåì, è íå ïîíÿòíî, ÷òî èõ îáúå-äèíÿåò. Ðåçóëüòàòû KTPB ãîðàçäî áîëåå ðàçóìíû.
Ïåðâûé êëàñòåð ïðî ãëàâíóþ íîâîñòü òîãî ïåðèî-äà, âûáîðû â Àëòàéñêîì êðàå. Âòîðîé ïðî ðàçíîãî ðîäà ýêîíîìè÷åñêèå íîâîñòè. Ñìûñë òðåòüåãî êëàñ-òåðà ìåíåå ïîíÿòåí, íî âèäíî, ÷òî îäíà èç åãî ñî-ñòàâëÿþùèõ èçâåñòèÿ ïðî ïðîõîäèâøóþ â òî âðå-ìÿ íåäåëþ áåçîïàñíîñòè äîðîæíîãî äâèæåíèÿ.
C. Ðåçóëüòàòû îäèíàêîâî íåóäîâëåòâîðèòåëüíû ó îáîèõ ìåòîäîâ. Ïðîáëåìà çäåñü çàêëþ÷àåòñÿ â òîì,
÷òî îíè îáà ïîëó÷èëè äâà áîëüøèõ òåìàòè÷åñêè íåî-äíîðîäíûõ êëàñòåðà (îòíîñèòåëüíî òàê êàê ñàì êîðïóñ î÷åíü îäíîðîäåí) ïëþñ ìíîãî ìåëêèõ óçêî-ñïåöèôè÷íûõ êëàñòåðîâ. Ðàçëè÷èå ìåæäó ýòèìè áîëüøèìè êëàñòåðàìè íåÿñíî íè â òîì, íè â äðóãîì ìåòîäå.
Òàêèì îáðàçîì, äëÿ âñåõ ðàññìîòðåííûõ êîð-ïóñîâ KTPB ïðîäåìîíñòðèðîâàë áîëåå àäåêâàòíóþ (èëè â îäíîì ñëó÷àå ðàâíî íåóäîâëåòâîðèòåëüíóþ) ñìûñëîâóþ ïîìåòêó íàéäåííûõ êëàñòåðîâ, ÷åì MLSA.
 çàêëþ÷åíèå îòìåòèì ñèëüíîå îòëè÷èå ðåçóëü-òàòîâ ñðàâíåíèÿ ðàññìàòðèâàåìûõ ìåòîäîâ ñ òî÷êè çðåíèÿ êîëè÷åñòâåííîãî è êà÷åñòâåííîãî êðèòåðè-åâ. Ïî-âèäèìîìó, ýòî îçíà÷àåò, ÷òî â ñëó÷àÿõ, êîãäà áîëåå âàæíà èíòåðïðåòàöèÿ ÷åëîâåêîì ðåçóëüòàòîâ êëàñòåðèçàöèè, (èëè â ñëó÷àå òåìàòè÷åñêè ðàçíîîá-ðàçíûõ êîðïóñîâ) ïðåäïî÷òèòåëüíî èñïîëüçîâàòü ïðåäëàãàåìûé â ðàáîòå ìåòîä.  ïðîòèâíîì ñëó÷àå áîëåå îïðàâäàíî èñïîëüçîâàíèå ìåòðè÷åñêèõ ìåòî-äîâ. Âîçìîæíî òàêæå, ÷òî, êàê ãîâîðèëîñü â ðàçäå-ëå 6, êðèòåðèé IG íå ñîâñåì òî÷íî îòðàæàåò êà÷åñòâî êëàñòåðèçàöèè â êàêèõ-òî èç ïîñòàâëåííûõ ýêñïåðè-ìåíòîâ.
8. Çàêëþ÷åíèå
 äàííîì èññëåäîâàíèè ïðåäëîæåí íîâûé ìåòîä êëà-ñòåðèçàöèè òåêñòîâ, îñíîâàííûé íà èõ ïðåäñòàâëå-íèè â âèäå íàáîðîâ êëþ÷åâûõ òåðìîâ è ìåðå èõ áëè-çîñòè, âû÷èñëÿåìîé íà îñíîâå ñìûñëîâîé áëèçîñòè èõ êëþ÷åâûõ òåðìîâ. Ïðîâîäèëîñü ñðàâíåíèå ïðåä-ëàãàåìîãî ìåòîäà ñ ìåòðè÷åñêèìè ìåòîäàìè êëàñòå-ðèçàöèè, ïðåäñòàâëÿþùèìè òåêñòû êàê òî÷êè åäè-íîãî åâêëèäîâîãî ïðîñòðàíñòâà. Ðåçóëüòàòû ñðàâíå-íèÿ ïîäòâåðæäàþò ïðåäïîëîæåíèå î òîì, ÷òî ïðåä-ëàãàåìûé ìåòîä äîëæåí èìåòü ïðåèìóùåñòâî â
ñëó-÷àå ñèëüíîãî òåìàòè÷åñêîãî ðàçíîîáðàçèÿ àíàëèçè-ðóåìîãî êîðïóñà ëèáî ìàëîãî ðàçìåðà îòäåëüíûõ
òåê-ñòîâ. Êðîìå òîãî, îí ïðèâîäèò ê ãîðàçäî áîëåå ïî-íÿòíîé è òî÷íîé ñìûñëîâîé ïîìåòêå íàéäåííûõ êëà-ñòåðîâ. Âàæíûì ïîáî÷íûì ðåçóëüòàòîì äàííîé ðà-áîòû, çàñëóæèâàþùèì îòäåëüíîãî èññëåäîâàíèÿ, ñòà-ëà ðàçðàáîòêà ìåòîäà àâòîìàòè÷åñêîãî ñîçäàíèÿ íà-ïîìèíàþùåé òåçàóðóñ ñòðóêòóðû íà áàçå ìàòðèöû ñîâìåñòíîé âñòðå÷àåìîñòè ëåêñåì, ïîñòðîåííîé íà áîëüøîì òåêñòîâîì êîðïóñå. Ýòà ñòðóêòóðà íå òîëü-êî äàåò îñíîâó äëÿ äîñòàòî÷íî àäåêâàòíîé îöåíêè ñìûñëîâîé áëèçîñòè òåðìîâ, ÷òî íåîáõîäèìî äëÿ ïðåäëàãàåìîãî ìåòîäà êëàñòåðèçàöèè, íî è ìîæåò áûòü óäîáíà êàê îòïðàâíàÿ òî÷êà äëÿ ðó÷íîãî ñîçäà-íèÿ íàñòîÿùåãî îáùåÿçûêîâîãî èëè òåìàòè÷åñêîãî òåçàóðóñà.
Òàáëèöà 2 Ñìûñëîâàÿ ïîìåòêà òðåõ ñàìûõ ìíîãî÷èñëåííûõ êëàñòåðîâ â ìåòîäàõ MLSA è KTPB
Êîðïóñ MLSA KTPB
W
[êîìïàíèÿ êàòàëîã óñëóãà] [ìî÷ü;ýòî;ðàáîòà]
[ïîëüçîâàòåëü ðóá êîðçèíà] [êîíòàêò;ëèñò;ïðàéñ]
[êâàðòèðà ðóá çíàêîìñòâî] [äâèãàòåëü; æèäêîñòü; àðìàòóðà]
[ðóá êîðçèíà ìåáåëü]
[ðóá êîìïàíèÿ èãðà] [ðåñ; ðåð]
[ñêà÷èâàòü áàíê ôàéë]
[ìàðà êèíîòåàòð òåëî] ñàéò [ñîáàêà; ïîðîäà; ùåíîê]
[êèíîòåàòð êîíôåðåíöèÿ îòïðàâëÿòü][êëóá ñàíêò îáîðóäîâàíèå] ðàäèîäèàãíîñòèê æèâîòíîå øíàóöåð ïîâîäîê
Q
[ïîëèòèå ýòî îíè] [ïîëèòè÷åñêèé; ïàðòèÿ]
[áèáëèîòåêà áîðèñ åâðåé] [ðîññèéñêèé; ãîñóäàðñòâåííûé; çàêîí]
[ìèõàèë âëàñòü ïèñàíèå] [èñòîðèÿ; íàóêà; íàó÷íûé]
[ïîëèòèå ñåìèíàð îïóáëèêîâûâàòü] êíèãà áîðèñ åâðåé ðîññèÿ [ñåìèíàð åâðåéñêèé åâðåé] ìèô áàøèëîâ ìàñîíñòâî óèëî ïèðñ [ñåìèíàð ðàáî÷èé ïðàêòè÷åñêèé]
[ïîëèòèå ñåìèíàð îïóáëèêîâûâàòü] ïîëèòèå [ïîëèòè÷åñêèé; ïàðòèÿ]
[äàâëåíèå ìåäíûé ôèëèàë] ïîðøíåâûé ôåäåðàëèçì îñåíü òîòàëèòàðèçì
[ñòóäåíò ìèõàèë äàâëåíèå] îáùåñòâåííûé ïîñòñîâåòñêèé
N
[ãðóçèÿ àäæàðèÿ òáèëèñè] [îáëàñòü; ïðåçèäåíò; ðàéîí]
[ïàêñàñ ëèòâà ñåéì] ïîêóøåíèå [ãðóçèÿ; ãðóçèíñêèé; òáèëèñè]
[ñóòÿãèí ïóòèí ãðóçèÿ] èíãóøåòèå [âûáîð; êîìèññèÿ; êàíäèäàò]
[èíãóøåòèå ïîêóøåíèå ìóðàò] ìàñõàäîâ [÷å÷íÿ;÷å÷åíñêèé; èíãóøåòèå]
[èíãóøåòèå ïîêóøåíèå ìóðàò][èíãóøåòèå êðàé èçáèðàòåëü] òóðëàé ñäàâàòüñÿ øàà êàäûð Àñëàí [ìàñõàäîâ ÷å÷íÿ òóðëàé] ïðèçûâ ñëóæáà âîåííûé ïðèçûâíèê ïðèçûâíûé [èíãóøåòèå ïîêóøåíèå ìóðàò] àëüòåðíàòèâíûé êîìèññàðèàò çàÿâëåíèå [ëåáåäåâ õîäîðêîâñêèé ìåíàòåï]
H
[èíãóøåòèå ðîññèÿ ïîêóøåíèå] ðåôåðåíòóðà êàëèìóëèí åâäîêèì êðàé ñåëüõîçíàëîã [íîâîå òþìåíü óðåíãîé] ãóáåðíàòîð ïóòèí àëòàéñêèé íàçíà÷àòü [ðîññèÿ ñøà ïîêóøåíèå]
[åâðî ÷å÷íÿ ìàñõàäîâ] åâðî ðóáëü ïåíñèÿ ïðîö ìëðä
[åâðî ãàçïðîì ìîñêâà] èíôëÿöèÿ òûñ ðîñôíåôòü áóãóðóñëàííåôòü [÷åëîâåê ðîññèÿ ïîãèáàòü]
[÷å÷íÿ ìàñõàäîâ ñäàâàòüñÿ] àçåðáàéäæàíûé ïîåçä áåçîïàñíîñòü äâèæåíèå [åâðî ÷å÷íÿ ìàñõàäîâ] íåäåëÿ äîðîæíûé äîðîãà ýêîíîìè÷åñêèé óðàëüñêèé [÷åëÿáèíñêèé ìàñõàäîâ íîâûé]
C
[çàíèìàòü îïðåäåëÿòü ðàçìåð] ëèøåíèå ñðîê íàêàçûâàòü îñóæäåííûé ëåò ðàçìåð [ïðèìåíåíèå íåîñòîðîæíîñòü ñìåðòü][çàíèìàòü îïðåäåëÿòü äîëæíîñòü] [ïëàòà;çàðàáîòíûé] äåÿíèå
[çàíèìàòü îïðåäåëÿòü ðàçìåð] [ðîññèéñêèé; ãîñóäàðñòâåííûé; çàêîí]
[êðóïíûé ïðèìåíåíèå ìèëëèîí] íàñèëüñòâåííûé èíîé
[çàíèìàòü îïðåäåëÿòü ïðèìåíåíèå]
[çàíèìàòü îïðåäåëÿòü ðàçìåð]
[çàíèìàòü îïðåäåëÿòü ïðèìåíåíèå] Ñàìîóáèéñòâî
[íàðêîòè÷åñêèé âåùåñòâî ïñèõîòðîïíûé]
9. Áëàãîäàðíîñòè
Àâòîð áëàãîäàðèò êîìïàíèþ ßíäåêñ çà ïîääåðæêó äàííîãî èññëåäîâàíèÿ.
10. Ëèòåðàòóðà
[1] Berry M. W. Survey of Text Mining, Springer 2003.
[2] Beyer K., Goldstein J., Ramakrishnan R., & Shaft U. When is nearest neighbor meaningful. // Proc. of ICDT-1999, Jerusalem, Israel, P. 217-235.
[3] Bloehdorn S., and Cimiano Ph., & Hotho A. Learning Ontologies to Improve Text Clustering and Classification.
// Proc of GFKL. 2005. Mode of access: http://
w w w . k d e . c s . u n i - k a s s e l . d e / h o t h o / p u b / 2 0 0 5 / bloehdorn05learning_gfkl_final.pdf
[4] Efron M., Marchionini G. & Zhiang J. «Implications of the Recursive Representation problem for Automatic Concept Identification in On-line Governmental Information» //
ASIST SIG-CR Workshop. 2003 Mode of access: http:/
/ils.unc.edu/govstat/papers/efronASISpaper.pdf [5] Harris Z. Mathematical Structures of Language. 1968.
[6] Hotho A., Maedche A. & Staab S. Ontology-based text clustering. // Proceedings of the IJCAI-2001 Workshop
«Text Learning: Beyond Supervision», Seattle, USA.- 2001 Mode of access: http://www.aifb.uni-karlsruhe.de/WBS/Publ/
2001/hothoetal.pdf
[7] Kashyap V., Ramakrishnan C., Thomas C. & Sheth A.
TaxaMiner: An Experimental Framework for Automated Taxonomy Bootstrapping. // International Journal of Web and Grid Services, Special Issue on Semantic Web and
Mining Reasoning. 2005 Mode of access: http://
lsdis.cs.uga.edu/~cartic/publications/TaxaMinerIJGWS.pdf [8] Landauer T. K., Foltz P. W. & Laham D. Introduction to Latent Semantic Analysis. // Discourse Processes. 1998. Vol. 25. P.
259284.
[9] Miller G. WordNet: A lexical database for English. // CACM.
1995. Vol. 38. No. 11. P. 3941.
Text clustering procedure based on pair-wise proximity of key terms and its comparison
with metric clustering methods
Mikhail Kiselev
This work is devoted to development of a new method for automated text clustering based on representation of text documents as sets of their key terms which differ in size and contents in contrast with majority of existing methods representing texts as points of a Euclidean space. In this method proximity measure of two texts is calculated on the basis of pair-wise proximities of their key terms. Proximity of two terms in its turn is determined from distance between them in a tree representing certain ontology. Lack of available all-language Russian ontology (at present) made it necessary to develop methods for (semi)automated ontology construction on the basis of lexeme co-occurrence matrix created for large text corpus. Comparative analysis of explored clustering procedures included numeric clustering quality estimation as well as manual evaluation of cluster semantic tagging.
Èñïîëüçîâàíèå ñòàòèñòè÷åñêîé èíôîðìàöèè ïðè âûÿâëåíèè ñõîæèõ äîêóìåíòîâ
Ä. È. Êîñèíîâ
Àííîòàöèÿ
Âî ìíîãèõ ñîâðåìåííûõ çàäà÷àõ íåîáõîäèìî óìåòü âûäå-ëÿòü èç áîëüøèõ îáúåìîâ òåêñòîâ ïîäîáíûå äðóã äðóãó, â ñâÿçè ñ ÷åì òðåáóþòñÿ ýôôåêòèâíûå ìåòîäû äëÿ îïðåäåëå-íèÿ ñõîæèõ äîêóìåíòîâ. Ïðåäëîæåí ìåòîä ïîñòðîåîïðåäåëå-íèÿ ëî-êàëüíîé ñèãíàòóðû äîêóìåíòà íà îñíîâàíèè èñêëþ÷èòåëü-íî ñòàòèñòè÷åñêèõ ïàðàìåòðîâ åãî ñîäåðæèìîãî, áåç èñ-ïîëüçîâàíèÿ ãëîáàëüíûõ êîëëåêöèé. Íàáîð ïàðàìåòðîâ ïîäáèðàåòñÿ, èñõîäÿ èç ñîîáðàæåíèé óñòîé÷èâîñòè ê ðàç-ëè÷íûì âèäàì ìîäèôèêàöèé äîêóìåíòà. Ïðîâåäåí ðÿä ýê-ñïåðèìåíòîâ, èñïîëüçóþùèõ íåêîòîðûå èç ýòèõ ïàðàìåò-ðîâ. Ïîêàçàíà âîçìîæíîñòü èñïîëüçîâàíèÿ äàííîãî ïîä-õîäà â óñëîâèÿõ áîëüøèõ îáúåìîâ äîêóìåíòîâ.
1. Ââåäåíèå
Êîëîññàëüíîå êîëè÷åñòâî äîêóìåíòîâ â Èíòåðíå-òå, ïîìèìî î÷åâèäíûõ ïðåèìóùåñòâ îáèëèÿ èí-ôîðìàöèè, ïîðîæäàåò òàêæå ìíîæåñòâî ïðîáëåì.
Îòñóòñòâèå ïðÿìîãî êàòàëîãà è íåîáõîäèìîñòü ïîèñêà íóæíîé èíôîðìàöèè â ãèãàíòñêèõ ìàññè-âàõ äàííûõ âûçûâàåò ïîòðåáíîñòü â ñëîæíåéøèõ ïîèñêîâûõ ìàøèíàõ, ñîçäàíèå êîòîðûõ òðåáóåò äåòàëüíîé ïðîðàáîòêè ìíîæåñòâà ñïåöèôè÷åñêèõ ìåòîäîâ.
Îäíîé èç çàäà÷, ñ êîòîðîé ñòàëêèâàåòñÿ ëþáàÿ ïîèñêîâàÿ ìàøèíà, ÿâëÿåòñÿ çàäà÷à îïðåäåëåíèÿ ñõîæåñòè ðàçëè÷íûõ äîêóìåíòîâ ìåæäó ñîáîé.
Âûÿâëåíèå äóáëèêàòîâ ïîçâîëÿåò óñòðàíÿòü ïîâòî-ðÿþùèåñÿ äîêóìåíòû â ñïèñêàõ-ðåçóëüòàòàõ çàï-ðîñîâ, óìåíüøàòü ðàçìåð èíäåêñà ïóòåì óñòðàíåíèÿ èçáûòî÷íîñòè, îáíàðóæèâàòü ïëàãèàò è ðàñïîçíàâàòü ìàññîâûå ïî÷òîâûå ðàññûëêè (ñïàì).
Èñòî÷íèêè äóáëèêàòîâ â ñåòè òàêæå ìîãóò áûòü ñàìûìè ðàçëè÷íûìè. Ìîäèôèêàöèè äîêóìåíòîâ ìîæíî ðàçáèòü íà íåñêîëüêî âèäîâ:
1. Âîçíèêàþùèå ïðè ñîçäàíèè çåðêàë (êîïèé) ñàéòîâ è äîêóìåíòîâ:
a. Ñìåíà çàãîëîâêà è ïîäïèñè äîêóìåíòà (header, footer).
b. Ðàñïîëîæåíèå è íàïîëíåíèå íàâèãàöèîííûõ ýëåìåíòîâ.
c. Ðàçëè÷íûå HTML-àäðåñà, âåäóùèå ê îäíî-ìó äîêóìåíòó.
2. Âîçíèêàþùèå ïðè ïðåîáðàçîâàíèè äîêóìåíòà:
a. Ñìåíà ôîðìàòà äîêóìåíòà (íàïðèìåð, DOC, PDF è HTML).
b. Ðàçëè÷íûå âåðñèè è êîïèè äîêóìåíòà.
c. Øàáëîííûå òåêñòû (íàïðèìåð, ëèöåíçèîí-íûå ñîãëàøåíèÿ, îïèñàíèÿ òîâàðîâ â Èíòåðíåò-ìà-ãàçèíàõ).
3. Âîçíèêàþùèå ïðè ðåäàêòèðîâàíèè äîêóìåíòà:
a. Âñòàâêà è óäàëåíèå àáçàöåâ è ïðåäëîæå-íèé.
b. Ïåðåñòàíîâêà ïðåäëîæåíèé è àáçàöåâ ìåñ-òàìè.
c. Ôîðìàòèðîâàíèå òåêñòà.
d. Íåçíà÷èòåëüíûå èçìåíåíèÿ òåêñòà, îøèáêè îïåðàòîðà.
e. Óñå÷åíèå â ìåíüøèé îáúåì.
4. Ïðèìåíÿåìûå ñïàìåðàìè â ìàññîâûõ ðàññûë-êàõ: a. Âñòàâêà â òåêñò íàáîðîâ ñëó÷àéíûõ ñèìâî-ëîâ. b. Ïðîèçâîëüíàÿ âñòàâêà è óäàëåíèå ïðîáåëîâ.
c. Çàìåíà ñèìâîëîâ îäíîé ðàñêëàäêè íà ñèì-âîëû äðóãîé, èìåþùèå àíàëîãè÷íîå íàïèñàíèå.
d. Âñòàâêà çíà÷àùèõ ñëîâ â òåêñò â ñëó÷àéíûõ ïîçèöèÿõ.
Ñàìî ïîíÿòèå ñõîæèõ äîêóìåíòîâ, äóáëèêàòîâ (òàêæå íàçûâàåìûõ ïî÷òè-äóáëèêàòàìè) êðàéíå íåî-äíîçíà÷íî è, â çàâèñèìîñòè îò íåîáõîäèìîñòè, ïî-ðàçíîìó òðàêòóåòñÿ ðàçëè÷íûìè àâòîðàìè. Êàê ïîêàçàíî â [2], ñóùåñòâóåò «ïàðàäîêñ èçìåðåíèÿ»:
ïûòàÿñü äàòü îáúåêòèâíóþ îöåíêó, èññëåäîâàòåëè â õîäå ðàáîòû äåëàþò ìíîãî ñóáúåêòèâíûõ äîïó-ùåíèé.  ðåçóëüòàòå, íåçíà÷èòåëüíûå ðàñõîæäå-íèÿ â îïðåäåëåðàñõîæäå-íèÿõ «äóáëèêàòîâ» è óìîë÷àíèå ÷àñòè ïàðàìåòðîâ ýêñïåðèìåíòîâ àâòîðàìè ïðèâîäÿò ê ñåðüåçíûì ðàñõîæäåíèÿì ðåçóëüòàòîâ, è çà÷àñòóþ ñëîæíî îïðåäåëèòü öåííîñòü è ìåñòî ïðîâåäåí-íûõ èññëåäîâàíèé.
 êà÷åñòâå áàçîâîãî îïðåäåëåíèÿ ìîæíî ïîíè-ìàòü ïîä ïî÷òè-äóáëèêàòîì ñëåäóþùåå: äâå ñòðà-íèöû èìåþò îäíî è òî æå ñîäåðæàíèå, çà
èñêëþ-÷åíèå îòäåëüíûõ, îòíîñèòåëüíî íåáîëüøèõ, ðàç-ëè÷èé.