The OpenNET Project / Index page

[ новости /+++ | форум | теги | ]

форумы  помощь  поиск  регистрация  майллист  вход/выход  слежка  RSS
"Ковертация из PDF в ASCII японского текста"
Вариант для распечатки  
Пред. тема | След. тема 
Форумы Открытые системы на рабочей станции (Public)
Изначальное сообщение [ Отслеживать ]

"Ковертация из PDF в ASCII японского текста"  
Сообщение от Аноним (??) on 25-Фев-09, 08:12 
Задача:
--------

Из pdf файла с японским текстом получить текстовый файл в любой японской кодировке (например, SHIFT_JIS). Т.е. из японского pdf'а получить поток символов в определенной японской кодировке. Что делать потом с ним я знаю. Мне нужен лишь этот поток символов.

Что делал:
-----------
ps2ascii 555_cat.pdf 555_cat.ascii
ESP Ghostscript 7.07.1: Unrecoverable error, exit code 1

Как видно вылазит ошибочка. 100% не понимает японского. Подскажите решение, может у кого есть опыт в этом.

P.S.
-----

ps2ascii это обертка для gs

Высказать мнение | Ответить | Правка | Cообщить модератору

 Оглавление

Сообщения по теме [Сортировка по времени | RSS]


1. "Ковертация из PDF в ASCII японского текста"  
Сообщение от Andrey Mitrofanov on 26-Фев-09, 18:50 
>[оверквотинг удален]
>--------
>
>Из pdf файла с японским текстом получить текстовый файл в любой японской
>кодировке (например, SHIFT_JIS). Т.е. из японского pdf'а получить поток символов в
>определенной японской кодировке. Что делать потом с ним я знаю. Мне
>нужен лишь этот поток символов.
>
>Что делал:
>-----------
>ps2ascii 555_cat.pdf 555_cat.ascii

У меня под рукой оказался pdftotext из xpdf-utils.
Попытки просто просмотра .pdf-ов с предположительно японскими текстами, сыпали сообщениями про "Unknown character collection 'Adobe-Japan1'"....
Изучение pdftotext(1) и xpdfrc(5) (обнаружилось упоминание "Adobe-Japan1")....

Попытки 'pdftotext file.PDF file.txt', 'pdftotext -enc UTF-8 ...' c "пустым" результатом...

Поиски (и отсутствие такового - в моём main+contrib репозитарии) поминаемых в контексте ~japan в xpdfrc(5) файлов....

И дальнейшие поиски привели к пакету xpdf-japanese в разделе non-free Debian....

"Сымпровизированный" по мотивам входящего в него /etc/xpdf/xpdfrc-japanese "локальный" аналог (./xpdfrc-japanese1):
#----- begin NOT: Japanese support package (2004-jul-27)
cidToUnicode    Adobe-Japan1    ./Adobe-Japan1.cidToUnicode
unicodeMap      ISO-2022-JP     ./ISO-2022-JP.unicodeMap
unicodeMap      EUC-JP          ./EUC-JP.unicodeMap
unicodeMap      Shift-JIS       ./Shift-JIS.unicodeMap
cMapDir         Adobe-Japan1    ./adobe-japan1
toUnicodeDir                    ./adobe-japan1

textEncoding    EUC-JP
#----- end NOT: Japanese support package
... и распакованные сюда же упомянутые в нём файлы (и директория ./adobe-japan1) из упомянутого пакета в :) результате команды

pdftotext -cfg ./xpdfrc-japanese1 -enc UTF-8 file.PDF file.TXT
как и
pdftotext -cfg ./xpdfrc-japanese1 -enc Shift-JIS file.PDF file.TXT
дали-таки мне какой-то :))) поток байтов
この行政機関の保有する情報の公開に関する法律の翻訳は、平成十六年法律第八十四号
, с которым _я_ уже не знаю, чего делать.

И кстати, да... Поток байтов получился из 1 из 2-х выкачанных наобум .pdf-ов из доменов .jp. Видимо, BUG имети pdftotext(1):
---
BUGS
Some  PDF  files contain fonts whose encodings have been mangled beyond recognition. There is no way (short of OCR) to extract text from these files.
---
и прочие "стандартные" http:/openforum/vsluhforumID3/49911.html#31 проявления "текст - по факсу" http:/openforum/vsluhforumID3/49911.html#26 формата имени Адобе.

Надеюсь, помог. (Гм. Я не очень сложно излагаю? :D)

Высказать мнение | Ответить | Правка | Наверх | Cообщить модератору

2. "Ковертация из PDF в ASCII японского текста"  
Сообщение от LS (ok) on 28-Фев-09, 03:18 
>
>この行政機関の保有する情報の公開に関する法律の翻訳は、平成十六年法律第八十四号
>

могу только заметить, что вот эта последовательность символов в моем браузере точно соотвествует поставленой задаче. Andrey-ты лучший!!!! это однозначно "определенная"  японская кодировка! :)

Высказать мнение | Ответить | Правка | Наверх | Cообщить модератору

Архив | Удалить

Индекс форумов | Темы | Пред. тема | След. тема
Оцените тред (1=ужас, 5=супер)? [ 1 | 2 | 3 | 4 | 5 ] [Рекомендовать для помещения в FAQ]




Партнёры:
PostgresPro
Inferno Solutions
Hosting by Hoster.ru
Хостинг:

Закладки на сайте
Проследить за страницей
Created 1996-2024 by Maxim Chirkov
Добавить, Поддержать, Вебмастеру