• 検索結果がありません。

Îïèñàíèå ìåòîäîâ, àëãîðèòìîâ è ýêñïåðèìåíòîâ

ドキュメント内 untitled (ページ 86-90)

4.1. Ìåòðèêè

Âûáîð ìåòðèê, êàê óæå áûëî ïîêàçàíî â [2], âî ìíîãîì îïðåäåëÿåò ïîëåçíîñòü èññëåäîâàíèÿ. Äàí-íàÿ ðàáîòà ïðåñëåäîâàëà öåëü îáåñïå÷èòü ìàêñè-ìàëüíóþ ïîëíîòó ïîëó÷àåìûõ ðåçóëüòàòîâ äëÿ âîç-ìîæíîñòè ñðàâíåíèÿ ðåçóëüòàòîâ ñ ïðåäûäóùèìè ðàáîòàìè â ýòîé îáëàñòè.  èòîãå áûë èñïîëüçî-âàí îïèñàííûé íèæå, âî ìíîãîì ñòàíäàðòíûé, íàáîð ìåòðèê.

Èñïîëüçóåìûå îáîçíà÷åíèÿ:

– a – êîëè÷åñòâî íàéäåííûõ ïàð äóáëèêàòîâ, ñî-âïàäàþùèõ ñ «ðåëåâàíòíûìè» ïàðàìè;

– b – êîëè÷åñòâî íàéäåííûõ ïàð äóáëèêàòîâ, íå ñîâïàäàþùèõ ñ «ðåëåâàíòíûìè» ïàðàìè;

– c – êîëè÷åñòâî íå íàéäåííûõ ïàð äóáëèêàòîâ, ñîâïàäàþùèõ ñ «ðåëåâàíòíûìè» ïàðàìè;

– d – êîëè÷åñòâî íå íàéäåííûõ ïàð äóáëèêàòîâ, íå ñîâïàäàþùèõ ñ «ðåëåâàíòíûìè» ïàðàìè.

Òî÷íîñòü (Precision). Ïðåäñòàâëÿåò ñîáîé îòíî-øåíèå îáùåãî ÷èñëà íàéäåííûõ ðåëåâàíòíûõ ïàð

äóáëèêàòîâ ê îáùåìó ÷èñëó íàéäåííûõ ïàð.  íà-øåì ñëó÷àå îíà áóäåò õàðàêòåðèçîâàòü ñïîñîáíîñòü íàõîäèòü òîëüêî ðåëåâàíòíûå ïàðû.

b a P a

= +

Ïîëíîòà (Recall). Âû÷èñëÿåòñÿ êàê îòíîøåíèå îáùåãî ÷èñëà íàéäåííûõ ðåëåâàíòíûõ ïàð äóáëè-êàòîâ ê îáùåìó ÷èñëó «ðåëåâàíòíûõ» ïàð. Õàðàê-òåðèçóåò ñïîñîáíîñòü íàõîäèòü íóæíûå ïàðû.

c a R a

= +

Ô-ìåðà (F1, F-measure). Ãàðìîíè÷åñêîå ñðåäíåå äëÿ òî÷íîñòè è ïîëíîòû. Óäîáíà â èñïîëüçîâàíèè â êà÷åñòâå îáùåé ìåòðèêè, îáúåäèíÿþùåé äâå ïðåäûäóùèå, òàê êàê è ïîëíîòà è òî÷íîñòü ïðè-ñóòñòâóþò â íåé ñ îäèíàêîâûì âåñîì.

R P

PR F 2

= +

Àêêóðàòíîñòü (Accuracy). Îòíîøåíèå ÷èñëà ïðà-âèëüíûõ ðåøåíèé àëãîðèòìà ê îáùåìó ÷èñëó ðå-øåíèé.

m d

A=a+ , ãäå m = a + b + c + d.

AC1. Ìîäèôèöèðîâàííàÿ âåðñèÿ êàïïû Êîýíà, ñòàòèñòè÷åñêîé ìåðû âçàèìíîãî ñîãëàñèÿ äâóõ îöåíùèêîâ. Èñïîëüçîâàëàñü äëÿ îöåíêè ñòåïåíè ñîãëàñèÿ (ïåðåñåêàåìîñòè) ðåçóëüòàòîâ ðàçëè÷íûõ ýêñïåðèìåíòîâ.

) ( ) (

E p 1

A E 1 p

AC = − ,

ãäå p(E)= 2P’(1-P’) è 2m c b a ' 2

P= + + 4.2. Ïðîãðàììíàÿ ðåàëèçàöèÿ

Äëÿ âûïîëíåíèÿ èññëåäîâàíèÿ êîìïàíèåé «ßíäåêñ»

áûë ïðåäîñòàâëåí íàáîð äàííûõ «Web-ñòðàíèöû êîëëåêöèè ÐÎÌÈÏ». Ýòà êîëëåêöèÿ èñïîëüçóåòñÿ â ðàìêàõ Ðîññèéñêîãî ñåìèíàðà ïî îöåíêå ìåòîäîâ èíôîðìàöèîííîãî ïîèñêà (ÐÎÌÈÏ) è âêëþ÷àåò ïîðÿäêà 750 òûñÿ÷ ñòðàíèö, ñîäåðæàùèõñÿ áîëåå

÷åì â 23000 ñàéòîâ äîìåíà narod.ru.

Äàííûå î äóáëèêàòàõ ýòîãî íàáîðà äàííûõ, ïðåäîñòàâëåííûå âìåñòå ñ íèì, ñîñòàâëÿëèñü íà îñíîâå ôóíêöèè Ëåâåíøòàéíà (íàçûâàåìîé òàê æå ðàññòîÿíèåì ðåäàêòèðîâàíèÿ). Ýòà ôóíêöèÿ ðàâíà ìèíèìàëüíîìó êîëè÷åñòâó îïåðàöèé ðåäàêòèðîâà-íèÿ, íåîáõîäèìûõ äëÿ ïðåîáðàçîâàíèÿ îäíîãî äî-êóìåíòà â äðóãîé. Áûëè èçâåñòíû ïàðû äîêóìåí-òîâ, êîýôôèöèåíò ñõîäñòâà êîòîðûõ, ïîñëå óäàëå-íèÿ òýãîâ, ñîñòàâëÿë íå ìåíåå 85 % è ñîñòîÿùèõ íå ìåíåå, ÷åì èç 20 ñëîâ. Ñîîòâåòñòâåííî, ðåçóëü-òàòû ýêñïåðèìåíòîâ ñðàâíèâàëèñü èìåííî ñ ýòèì

«èäåàëüíûì» ñïèñêîì äóáëèêàòîâ.

 ðÿäå ýêñïåðèìåíòîâ èñïîëüçîâàëñÿ ñïèñîê ñòîï-ñëîâ.  ýòîì ñëó÷àå îí ãåíåðèðîâàëñÿ èç ôàéëà stopword.lst, âõîäÿùåãî â ñîñòàâ ñâîáîäíî ðàñïðîñòðàíÿåìîãî êîìïàíèåé «ßíäåêñ» ïðîäóêòà ßndex.Server 3.8 Free Edition1 è ñîñòîÿùåãî èç 279

1 http://company.yandex.ru/technology/products/yandex-server.xml

÷àñòî óïîòðåáèìûõ ñëîâ ðóññêîãî è àíãëèéñêîãî ÿçûêîâ.

Äëÿ óäàëåíèÿ HTML-ðàçìåòêè èñïîëüçîâàëàñü îòêðûòàÿ Java-áèáëèîòåêà HTML Parser2, ïðåäîñ-òàâëÿþùàÿ äàííóþ ôóíêöèîíàëüíîñòü.

 êîíå÷íîì èòîãå êàæäîìó äîêóìåíòó ñòàâèëñÿ â ñîîòâåòñòâèå 128-áèòíûé MD5-õåø, ïîëó÷åí-íûé èç ñãåíåðèðîâàííîé ñèãíàòóðû.  ñîîòâåò-ñòâèè ñ [10], MD5 äàåò çíà÷èòåëüíî ìåíüøåå ÷èñ-ëî ÷èñ-ëîæíûõ ñðàáàòûâàíèé, ÷åì 40-áèòíûé õåø Ðàáèíà, èñïîëüçîâàííûé â ðàííèõ èññëåäîâàíèÿõ, ïðè ñîõðàíåíèè äîñòàòî÷íî âûñîêîé ñêîðîñòè ãå-íåðàöèè.

Ïðîãðàììíàÿ ðåàëèçàöèÿ îïèñàííûõ ìåòîäîâ âêëþ÷àëà â ñåáÿ ðåàëèçàöèþ ñëåäóþùèõ ýòàïîâ:

1. Ïîäãîòîâêà òåñòîâûõ äàííûõ:

a. Ïàðñèíã çàãîëîâêîâ è èíäåêñîâ äîêóìåíòîâ èç ïðåäîñòàâëåííîãî íàáîðà äàííûõ â ñîáñòâåííóþ áàçó äàííûõ.

b. Çàïîëíåíèå ñâåäåíèé îá èçâåñòíûõ ïàðàõ äîêóìåíòîâ-äóáëèêàòîâ.

2. Íàáîð ýêñïåðèìåíòîâ, äëÿ êàæäîãî èç êîòî-ðûõ âûïîëíÿëèñü:

a. Ãåíåðàöèÿ õåøåé äëÿ êàæäîãî äîêóìåíòà.

i. Óäàëåíèå HTML-ðàçìåòêè (åñëè òðåáîâà-ëîñü).

ii. Ïîñòðîåíèå ñèãíàòóðû â ñîîòâåòñòâèè ñ êîíêðåòíûì àëãîðèòìîì òåñòà.

iii. Õåøèðîâàíèå.

b. Àíàëèç ðåçóëüòàòîâ ýêñïåðèìåíòà ñ èñïîëü-çîâàíèåì îïèñàííûõ âûøå ìåòðèê.

3. Ðàñ÷åò ñòåïåíè ñîîòâåòñòâèÿ ðåçóëüòàòîâ ðàç-ëè÷íûõ ýêñïåðèìåíòîâ äðóã äðóãó.

4.3. Ýêñïåðèìåíòû

 ñîîòâåòñòâèè ñ èäååé èññëåäîâàíèÿ, áûë ðàçðàáî-òàí ðÿä ýêñïåðèìåíòîâ, èññëåäóþùèõ âîçìîæíîñòü èñïîëüçîâàíèÿ ñòàòèñòè÷åñêèõ ïàðàìåòðîâ òåêñòà ïðè ãåíåðàöèè ïîäïèñåé äîêóìåíòîâ.

Òåñò ¹ 1: êîëè÷åñòâî ñïåöñèìâîëîâ è çíàêîâ ïðå-ïèíàíèÿ.

Ïîäñ÷èòûâàëîñü ÷èñëî âõîæäåíèé â òåêñò äî-êóìåíòà d êàæäîãî ñèìâîëà èç íàáîðà p, âêëþ÷àâ-øåãî â ñåáÿ ñëåäóþùèå ýëåìåíòû:

., – _ : ; ! ? () è ñèìâîë ïðîáåëà.

Äîêóìåíò ïðåäñòàâëÿëñÿ â âèäå âåêòîðà ðàç-ìåðíîñòüþ 11 ýëåìåíòîâ, êîìïîíåíòàìè êîòîðîãî ÿâëÿëîñü ÷èñëî âõîæäåíèé êàæäîãî ñèìâîëà â äîêóìåíò.

s = (c1,c2,…,c11), ãäå ci = Count(d, pi).

Òåñò ¹ 2: êîëè÷åñòâî ñëîâ ðàçëè÷íûõ äëèí.

Ïîäñ÷èòûâàëîñü ÷èñëî âõîæäåíèé ñëîâ ðàçëè÷-íûõ äëèí â òåêñò äîêóìåíòà (çäåñü è äàëåå ïîä ñëîâîì ïîäðàçóìåâàåòñÿ íåïðåðûâíàÿ àëôàâèòíî-öèôðîâàÿ ïîñëåäîâàòåëüíîñòü). Äîêóìåíò ïðåäñòàâ-ëÿëñÿ â âèäå âåêòîðà ðàçìåðíîñòüþ, ðàâíîé äëèíå ñàìîãî äëèííîãî ñëîâà äîêóìåíòà L. Êîìïîíåíòà-ìè âåêòîðà ÿâëÿëàñü ñòðîêà âèäà: «[äëèíà ñëî-âà] – [÷èñëî âõîæäåíèé]».

s = (c1,c2,…,cL),

ãäå ci = di + Count(d, di), L = Max(Length(di)).

Òåñò ¹ 3: êîëè÷åñòâî è ñðåäíÿÿ äëèíà ñëîâ è ïðåä-ëîæåíèé.

Ïîäñ÷èòûâàëàñü ñðåäíÿÿ äëèíà òåðìà è ïðåä-ëîæåíèÿ â äîêóìåíòå, à òàêæå îáùåå êîëè÷åñòâî òåõ è äðóãèõ. Ñèãíàòóðà ñîñòàâëÿëàñü ïóòåì êîí-êàòåíàöèè ïîëó÷åííûõ çíà÷åíèé ñòðîêîé âèäà:

«[ñðåäíÿÿ äëèíà ñëîâà] – [ñðåäíÿÿ äëèíà ïðåäëî-æåíèÿ] – [÷èñëî ñëîâ] – [îáùåå ÷èñëî ïðåäëîæå-íèé]».

Áûëè òàêæå ïðîòåñòèðîâàíû ìîäèôèêàöèè àë-ãîðèòìà, èñïîëüçóþùèå ïî îòäåëüíîñòè ñëîâà è ïðåäëîæåíèÿ (ñðåäíþþ äëèíó è îáùåå êîëè÷å-ñòâî). Îíè ïîêàçàëè íà 20–25 % õóäøóþ òî÷íîñòü ïðè ñîõðàíåíèè òîé æå ïîëíîòû, ÷òî è â îáúåäè-íåííîì òåñòå.

Òåñò ¹ 4: ïîïóëÿðíûå ñëîâà.

Ïîäñ÷èòûâàëîñü ÷èñëî ïîâòîðåíèé êàæäîãî ñëîâà â òåêñòå äîêóìåíòà. Äîêóìåíò ðàçáèâàëñÿ íà òåðìû è ïðåäñòàâëÿëñÿ â âèäå âåêòîðà, ðàçìåð-íîñòü êîòîðîãî ðàâíà ðàçìåðó ñëîâàðÿ äîêóìåíòàn.

Êîìïîíåíòàìè âåêòîðà ÿâëÿëàñü ñòðîêà âèäà: «[ñëî-âî] – [÷èñëî âõîæäåíèé]».

s = (c1,c2,…,cn), ãäå ci = d + Count(d, di).

Èñïîëüçóåìûé â äàííîì ýêñïåðèìåíòå àëãîðèòì èìååò îòäàëåííîå ñõîäñòâî ñ àëãîðèòìîì I-Match, îäíàêî èìåþòñÿ äâà ñóùåñòâåííûõ

îòëè-÷èÿ: èñïîëüçóþòñÿ äàííûå èñêëþ÷èòåëüíî èç îá-ðàáàòûâàåìîãî äîêóìåíòà, áåç ïðèâëå÷åíèÿ âíå-øíèõ èñòî÷íèêîâ äàííûõ â âèäå ãëîáàëüíîé êîë-ëåêöèè òåðìîâ; à òàêæå ó÷èòûâàåòñÿ ÷àñòîòà òåð-ìà â äîêóìåíòå.

Áûëè òàêæå ïðîòåñòèðîâàíû ñëåäóþùèå ìîäè-ôèêàöèè àëãîðèòìà:

– îáðåçêà 20–35 % ñ êàæäîé ñòîðîíû îòñîðòèðî-âàííîãî ïî êîëè÷åñòâó âõîæäåíèé ñïèñêà ñëî⠖ íå îêàçàëà çàìåòíîãî âëèÿíèÿ (ìåíåå 1 %);

– èñïîëüçîâàíèå â êà÷åñòâå åäèíèö íå ñëîâ, à ïðåäëîæåíèé – íå îêàçàëî çàìåòíîãî âëèÿíèÿ (ìå-íåå 1 %);

– îòñîðòèðîâàííûé ïî ÷èñëó âõîæäåíèé ñïèñîê ñëîâ, íîðìàëèçîâàííûé è îêðóãëåííûé äî ïåðâîãî çíàêà ïîñëå çàïÿòîé – äàë âûèãðûø â òî÷íîñòè â ðàç-ìåðå 1–2 %.

Òåñò ¹ 5: ïîñëåäîâàòåëüíîñòü äëèí ñëîâ.

Äîêóìåíò ðàçáèâàëñÿ íà òåðìû, ïîñëå ÷åãî ïðîèçâîäèëàñü êîíêàòåíàöèÿ äëèí âñåé ïîñëåäî-âàòåëüíîñòè òåðìîâ. Ñèãíàòóðà ñòðîèëàñü íà îñ-íîâå ïîëó÷åííîãî âåêòîðà.

Òåñò ¹ 6: àãðåãàòíûé.

Ñîâîêóïíûé òåñò, ñîáèðàþùèé âñå ïðåäûäó-ùèå òåñòû â îäèí. Ñèãíàòóðà ñîáèðàëàñü êîíêàòå-íàöèåé ñèãíàòóð òåñòîâ 1–5.

Ðåçóëüòàòû òåñòîâ ïðèâåäåíû â òàáë. 1–6. Ðàñøèô-ðîâêà çàãîëîâêîâ òàáëèö:

– Ïîðî㠖 ïîðîãîâàÿ âåëè÷èíà ñõîäñòâà äîêóìåí-òîâ â ñîîòâåòñòâèè ñ ôóíêöèåé Ëåâåíøòàéíà, ñ êî-òîðîé îíè ñ÷èòàþòñÿ ñõîæèìè;

– ÐÎÌÈÏ – ÷èñëî äóáëèêàòîâ ïî âåðñèè òåñòî-âîãî íàáîðà äàííûõ;

2 http://htmlparser.sourceforge.net/

– Òåñò – ÷èñëî äóáëèêàòîâ, ïîëó÷åííîå â ðåçóëü-òàòå òåñòà;

– Îáùèå – ÷èñëî ñîâïàäåíèé ïàð äóáëèêàòîâ òåñ-òà è ÐÎÌÈÏ;

Òàáëèöà 1 Ðåçóëüòàòû òåñòà ¹ 1

Ïîðîã ÐÎÌÈÏ Òåñò Îáùèå ÓíèêÐ ÓíèêÒ Ïîëíîòà Òî÷íîñòü Ô-ìåðà

1,00 506522 952311 458491 48031 493820 0,91 0,48 0,63

0,95 1676092 952311 831681 844411 120630 0,50 0,87 0,63

0,90 2061873 952311 871619 1190254 80692 0,42 0,92 0,58

0,85 2343691 952311 875416 1468275 76895 0,37 0,92 0,53

Òàáëèöà 2 Ðåçóëüòàòû òåñòà ¹ 2

Ïîðîã ÐÎÌÈÏ Òåñò Îáùèå ÓíèêÐ ÓíèêÒ Ïîëíîòà Òî÷íîñòü Ô-ìåðà

1,00 506522 424925 298809 207713 126116 0,59 0,70 0,64

0,95 1676092 424925 403182 1272910 21743 0,24 0,95 0,38

0,90 2061873 424925 409403 1652470 15522 0,20 0,96 0,33

0,85 2343691 424925 409827 1933864 15098 0,17 0,96 0,30

Òàáëèöà 3 Ðåçóëüòàòû òåñòà ¹ 3

Ïîðîã ÐÎÌÈÏ Òåñò Îáùèå ÓíèêÐ ÓíèêÒ Ïîëíîòà Òî÷íîñòü Ô-ìåðà

1,00 506522 431071 296080 210442 134991 0,58 0,69 0,63

0,95 1676092 431071 406317 1269775 24754 0,24 0,94 0,39

0,90 2061873 431071 414648 1647225 16423 0,20 0,96 0,33

0,85 2343691 431071 415163 1928528 15908 0,18 0,96 0,30

Òàáëèöà 6 Ðåçóëüòàòû òåñòà ¹ 6

Ïîðîã ÐÎÌÈÏ Òåñò Îáùèå ÓíèêÐ ÓíèêÒ Ïîëíîòà Òî÷íîñòü Ô-ìåðà

1,00 506522 235619 226233 280289 9386 0,45 0,96 0,61

0,95 1676092 235619 226698 1449394 8921 0,14 0,96 0,24

0,90 2061873 235619 227062 1834811 8557 0,11 0,96 0,20

0,85 2343691 235619 227078 2116613 8541 0,10 0,96 0,18

Òàáëèöà 4 Ðåçóëüòàòû òåñòà ¹ 4

Ïîðîã ÐÎÌÈÏ Òåñò Îáùèå ÓíèêÐ ÓíèêÒ Ïîëíîòà Òî÷íîñòü Ô-ìåðà

1,00 506522 240642 228961 277561 11681 0,45 0,95 0,61

0,95 1676092 240642 231175 1444917 9467 0,14 0,96 0,24

0,90 2061873 240642 231591 1830282 9051 0,11 0,96 0,20

0,85 2343691 240642 231628 2112063 9014 0,10 0,96 0,18

Òàáëèöà 5 Ðåçóëüòàòû òåñòà ¹ 5

Ïîðîã ÐÎÌÈÏ Òåñò Îáùèå ÓíèêÐ ÓíèêÒ Ïîëíîòà Òî÷íîñòü Ô-ìåðà

1,00 506522 414964 298584 207938 116380 0,59 0,72 0,65

0,95 1676092 414964 396036 1280056 18928 0,24 0,95 0,38

0,90 2061873 414964 400663 1661210 14301 0,19 0,97 0,32

0,85 2343691 414964 400917 1942774 14047 0,17 0,97 0,29

– ÓíèêÐ è ÓíèêÒ – ÷èñëî óíèêàëüíûõ äóáëèêàòîâ ïî âåðñèè ÐÎÌÈÏ è òåñòà ñîîòâåòñòâåííî.

Ãðàôè÷åñêàÿ èíòåðïðåòàöèÿ ðåçóëüòàòîâ òåñòîâ ïðèâåäåíà íà ðèñ.1 è 2.

Èñêëþ÷åíèå ñòîï-ñëîâ (äëÿ òåõ òåñòîâ, â êîòîðûõ ýòî áû èìåëî ñìûñë) íå äàëî çàìåòíîãî ðåçóëüòàòà:

îòêëîíåíèÿ îò áàçîâûõ ðåçóëüòàòîâ íå ïðåâûøàëè 1 % (êàê â ïîëîæèòåëüíóþ, òàê è â îòðèöàòåëüíóþ ñòîðîíó).

Òàêæå áûëî óñòàíîâëåíî, ÷òî îðèåíòàöèÿ â ïîñò-ðîåíèè ñèãíàòóðû íà çàãëàâíûå áóêâû (èõ ïîñëåäî-âàòåëüíîñòè è êîëè÷åñòâî), à òàêæå îïîðà íà îáùóþ äëèíó òåêñòà (ñ óäàëåíèåì ñòîï-ñëîâ è ïóíêòóàöèè è áåç) íå äàåò ñêîëüêî-íèáóäü çíà÷èìûõ è èíòåðåñíûõ ðåçóëüòàòîâ.

Ñòåïåíü ñîãëàñèÿ ðåçóëüòàòîâ âñåõ ïðîâåäåííûõ òåñòîâ ïðèâåäåíà â òàáë. 7. Êàê âèäíî èç ïðèâåäåí-íûõ äàíïðèâåäåí-íûõ, òåñòû ìîæíî ðàçáèòü íà òðè ãðóïïû, â ïðåäåëàõ êîòîðûõ ðåçóëüòàòû âåñüìà áëèçêè äðóã äðó-ãó:1. Òåñò ¹ 1 – îïèðàþùèéñÿ íà ñïåöñèìâîëû.

2. Òåñòû ¹ 2, 3, 5 – îïèðàþùèåñÿ íà äëèíó ýëåìåíòîâ òåêñòà.

3. Òåñòû ¹ 4, 6 – îïèðàþùèåñÿ íà íàáîðû ïîïóëÿðíûõ ñëîâ.

Òàáëèöà 7 Ñòåïåíü ñîãëàñèÿ ðåçóëüòàòîâ

ðàçëè÷íûõ òåñòîâ (ïî ÀÑ1)

¹ òåñòà 6 5 4 3 2

1 0,20 0,27 0,20 0,29 0,28

2 0,38 0,97 0,40 0,95

3 0,38 0,93 0,37

4 0,97 0,41

5 0 ,40

Ïîñëåäíèé, àãðåãàòíûé òåñò, îêàçàëñÿ âåñüìà áëè-çîê ïî ðåçóëüòàòàì ê òåñòó ¹ 4. Íåñìîòðÿ íà ñòàáèëü-íî ïîêàçûâàåìóþ èì âûñîêóþ òî÷ñòàáèëü-íîñòü, ïîëñòàáèëü-íîòà îñ-òàâëÿëà æåëàòü ëó÷øåãî.

 ïðîòèâîïîëîæíîñòü åìó, òåñò íà îñíîâå ñïåö-ñèìâîëîâ ïîêàçàë ìíîãî «ëèøíèõ» ïàð äóáëèêà-òîâ ïðè ïîðîãå, ðàâíîì 1, êîòîðûå çàòåì çàíÿëè ñâîå ìåñòî ïðè óìåíüøåíèè ïîðîãà äî 0,9. Ïî-äîáíûé «çàïàñ» ïîêàçàíèé ìîæåò îêàçàòüñÿ ïî-ëåçíûì â ðÿäå çàäà÷. Ô-ìåðà äëÿ âñåõ ïîðîãîâ äàííîãî òåñòà îêàçàëàñü ìàêñèìàëüíîé ñðåäè âñå-ãî íàáîðà òåñòîâ (çà îäíèì èñêëþ÷åíèåì).

Òåñòû èç âòîðîé ãðóïïû ïîêàçàëè ïðîìåæóòî÷-íûå ðåçóëüòàòû.

Êðîìå òîãî, àãðåãàòíûé òåñò ¹ 6 áûë äåòàëüíî ïðîàíàëèçèðîâàí äëÿ ðàçëè÷íûõ äèàïàçîíîâ äëèí äîêóìåíòîâ (òàáë. 8).

Òàáëèöà 8 Ðåçóëüòàòû òåñòà ¹ 6 äëÿ ðàçëè÷íûõ äèàïàçîíîâ

äëèí äîêóìåíòîâ (ïî êîëè÷åñòâó ñëîâ)

Äèàïàçîí Ïîðîã Ïîëí. Òî÷í. Ô-ìåðà

20–50 67718 1,00 0,82 0,98 0,90

20–50 67718 0,95 0,35 0,98 0,52

20–50 67718 0,90 0,25 0,98 0,40

20–50 67718 0,85 0,19 0,98 0,32

51–500 178945 1,00 0,35 0,96 0,51

51–500 178945 0,95 0,10 0,96 0,18

51–500 178945 0,90 0,08 0,97 0,15

51–500 178945 0,85 0,07 0,97 0,14

501–5000 55780 1,00 0,40 0,80 0,53

501–5000 55780 0,95 0,22 0,80 0,53

501–5000 55780 0,90 0,18 0,80 0,29

501–5000 55780 0,85 0,16 0,80 0,27

5001–99000 3001 1,00 0,37 0,94 0,52

5001–99000 3001 0,95 0,22 0,96 0,36

5001–99000 3001 0,90 0,20 0,96 0,34

5001–99000 3001 0,85 0,20 0,96 0,33

Èç ðåçóëüòàòîâ òåñòà âèäíî, ÷òî íàèëó÷øèå ðåçóëüòàòû àãðåãàòíûé òåñò ïîêàçàë íà êîðîòêèõ äîêóìåíòàõ (20–50 ñëîâ). Ýòîò ðåçóëüòàò ìîæíî ñ÷èòàòü äîñòàòî÷íî íåïëîõèì, ó÷èòûâàÿ èçâåñò-íóþ íåýôôåêòèâíîñòü àëãîðèòìà ñóïåðøèíãëèðî-âàíèÿ äëÿ êîðîòêèõ äîêóìåíòîâ. Ïàäåíèå òî÷íîñ-òè íà áîëüøèõ äîêóìåíòàõ ìîæíî îáúÿñíèòü óâå-ëè÷åíèåì «õðóïêîñòè» ñèãíàòóðû, âêëþ÷àþùåé â ñåáÿ âñå áîëüøåå êîëè÷åñòâî èíôîðìàöèè.

Ýêñïåðèìåíòû ïðîâîäèëèñü íà êîìïüþòåðå ñ ïðî-öåññîðîì Intel Core Duo E4300 è 1Ãá îïåðàòèâíîé ïàìÿòè. Âðåìÿ, çàòðà÷åííîå íà ãåíåðàöèþ ñèãíàòóð â ðàáî÷åé ðåàëèçàöèè àëãîðèòìîâ, ïðèâîäèòñÿ â òàáë. 9.

Íåñìîòðÿ íà âîçìîæíûå ïîãðåøíîñòè ðåàëèçàöèè (çíà÷èòåëüíóþ ÷àñòü âðåìåíè âî ìíîãèõ òåñòàõ, íà-ïðèìåð, îòîáðàëî ðàçáèåíèå òåêñòîâ ñ ïîìîùüþ HTML Parser), ýòè äàííûå ïîçâîëÿþò äàòü îöåíêó âû÷èñëèòåëüíîé ñëîæíîñòè àëãîðèòìîâ. Êàê ïîíÿò-íî èç îïèñàíèé òåñòîâ, ñ óâåëè÷åíèåì ÷èñëà äîêó-ìåíòîâ âðåìÿ âûïîëíåíèÿ âñåãäà áóäåò óâåëè÷èâàòü-Ðèñ. 1. Ãðàôèê ïîëíîòû äëÿ ðàçëè÷íûõ òåñòîâ

Ðèñ. 2. Ãðàôèê òî÷íîñòè äëÿ ðàçëè÷íûõ òåñòîâ

Êîë-âî äîêó-ìåíòîâ

ñÿ ëèíåéíî – O(n). Ïðîñòîòà è áûñòðîäåéñòâèå ìíî-ãèõ àëãîðèòìîâ ÿâëÿåòñÿ èõ âûèãðûøíîé ÷åðòîé â ñëó÷àå ïðèìåíåíèÿ ê áîëüøèì îáúåìàì äîêóìåíòîâ.

ドキュメント内 untitled (ページ 86-90)