kot_kam: (Default)
[personal profile] kot_kam
Обнаружил на archive.org небольшую подставу. Если текст существует только нераспознанным, в виде картинки, а вы попросите скачать вам epub, он вам его сделает, не вопрос. Он тут же запустит распознавалку и сольет вам свежераспознанный текст как есть. Если это будет какое-нибудь издание тыща шестьсот затертого года, с тогдашней орфографией и шрифтами, вы повеситесь это читать. Короче, избегайте этого. Я себе чуть мозг не сломал, пока понял, в чем проблема. :-)

Date: 2022-11-04 09:22 am (UTC)
From: [identity profile] bodeh.livejournal.com
Вот за то и не люблю все эти "умные" системы, что они решают за меня, меня не спросясь.

Date: 2022-11-04 10:34 am (UTC)
From: [identity profile] kot-kam.livejournal.com
Ну как же "не спросясь"? Они честно предупреждали, что у них "только картинка", виноваты ли они, что я их не понял? :-)

Date: 2022-11-04 11:24 am (UTC)
From: [identity profile] bodeh.livejournal.com
Но о том, что картинка будет насильно перегнана в текст — не предупредили же.

Date: 2022-11-04 01:12 pm (UTC)
From: [identity profile] kot-kam.livejournal.com
А вот это как раз тот случай, когда робот не обязан быть умнее человека. Мало ли зачем оно мне понадобилось — вдруг я решил текст вычитать? :-)

Ну, и скачать заново пдф или любой другой формат никто ж не запрещает.

Date: 2022-11-04 01:58 pm (UTC)
From: [identity profile] bodeh.livejournal.com
Так в том и дело, что если бы они хотя бы предупреждали, что картинка будет подменена как бы текстом... Или хотя бы оставляли картинку, а поверх неё текст.

Date: 2022-11-04 03:47 pm (UTC)
livelight: (lightning)
From: [personal profile] livelight
> картинка будет подменена как бы текстом

Мне случалось pdf после сканирования, где есть только картинка, превращать в точно так же выглядящий pdf, в котором текст. Сходу нашёлся даже онлайн сервис для этого. Очень удобно, потом можно уже не только печатать, но и копировать и вставлять в другое место.

А ещё бывают такие pdf, в которых кагбэ текст, но при попытке выделить и скопировать он превращается в какую-то аццкую мешанину посторонних букв. Вот за такое поубивал бы.

Date: 2022-11-04 09:40 am (UTC)
From: [identity profile] nasse.livejournal.com
Вообще идея исключить вычитку из цикла распознания текста - крайне похабна.

Date: 2022-11-04 10:36 am (UTC)
From: [identity profile] kot-kam.livejournal.com
Гхм. Вычитку исключать никто и не предлагает. Хочешь — возьмись и вычитай. ;-) Лично я им признателен уже за то, что у них лежит то, что лежит, в том виде, в каком есть. Я и пдфку картинкой почитать могу, не развалюсь, чай.

Date: 2022-11-04 10:37 am (UTC)
From: [identity profile] nasse.livejournal.com
Вычитку по факту уже давно исключили.

Но это я бурчу...

Date: 2022-11-04 11:01 am (UTC)
From: [identity profile] lipkalapka.livejournal.com
Не хотел писать, но предыдущие комментарии меня к этому привлекли:
1.Человек пытается посмотреть сайт исчезнувший из интернета. Смотрит через буфферизатор сайтов архив.орг (по идее на рубеже веков люди уже пошли бы свечки ставить к образам и спрашивать сколько денег донатить гринпису за такую волшебную фичу)
2. Посмотрев и убедившись в наличии «желаемого, но исчезнувшего» (магия!) человек радостно желает получить эти материалы в формате более удобном для просматривайся с телефона (ага, точно такой халатик только с перламутровыми пуговицами).
3. В некоторых случаях в книжку материалы не выдаются, а выдаются в поток картинок — бывает, вы еще с телефона на сайт жэка не заходили! Автор отмечает этот факт без явной досады, а больше «на заметку домашнему мастеру».
4. Комментаторы отмечают тотальную несостоятельность машин в деле решения вопроса «что конкретно надо читать человеку».

Я ни на кого не ругаюсь и не жалуюсь — у меня просто ощущение, что я на съемках ситкома какого-то присутствую. Спасибо за хорошее настроение! : )

Date: 2022-11-04 01:14 pm (UTC)
From: [identity profile] kot-kam.livejournal.com
А. Спасибо, что объяснили, что такое archive.org (я в этом ни черта не разбираюсь).

На самом деле, я им вечно признателен за один только словарь Cleasby и старый Grand Larousse.

Date: 2022-11-04 02:00 pm (UTC)
From: [identity profile] lipkalapka.livejournal.com
Извиняюсь, что не подписал схему сразу — там в конце должно быть многоточие и PROFIT!!! : )

Date: 2022-11-05 07:45 am (UTC)
From: [identity profile] slobin.livejournal.com
Подозреваю, что распознавалка включается всё-таки не в момент твоего запроса, а заранее. Другое дело, что да, тупо на автомате и без вычитки, "как распозналось, так и распозналось". Потому что гугль нужные документы по такому вот кривораспознанному тексту в общем находит. Нужно только потом читать не прямо то, что нашёл гугль, а исходную картинку.

Вот буквально вчера нашёл скан вырезки с заметкой из "Комсомольской Правды" за какое-то ноября 1987 года. Я эту заметку тогда же в 1987 году и читал, и помню, естественно, "примерно". Но гуглю этого хватило, а на архив.орг она была (искреннее спасибо архивистам!). Но да, найдя этот текст с покромсанными словами, надо было сообразить, что это результат плохого не вычитанного людьми распознавания (я не исключаю, что я вообще первый живой человек, который его увидел!), и честная картинка мне будет полезнее.

Предыдущий аналогичный случай был с изданием конца XIX века с билингвой на английском и маори, но я чего-то подумал, что поздний СССР сегодня воспринимается круче и экзотичнее. ;-)

... Наше будущее лучезарно как никогда ...

Profile

kot_kam: (Default)
kot_kam

January 2026

S M T W T F S
     1 2 3
45678910
11121314151617
18192021222324
25262728293031

Most Popular Tags

Style Credit

Expand Cut Tags

No cut tags
Page generated Jan. 5th, 2026 05:19 am
Powered by Dreamwidth Studios