excubitus: (Default)
[personal profile] excubitus
Выходные провел в поисках готового парсера (не нашел) и написании нового.
Вообще-то, группа, разработавшая новую программу, разработала и парсерок для перевода старых данных. Затрачено на это было около человеко-года, судя по датам файлов в проекте, получившаяся программа состоит из нескольких десятков классов, каждый файл по несколько тысяч строк. Там какая-то чудовищная логика, очень навороченная. При этом, умеет она переводить только записи о частотах. И даже это делает с ошибками. Полно случаев, когда максимум оказывается меньше минимума, мегагерцы вычитаются из килогерцев без согласования единиц и т.п.

Я за два дня написал нечто более тупое и простое. Мой парсер парсит все: и децибелы, и миллиамперы, и даже микроГенри может. Кредит бостонской пивоварне, делающей единственное в Америке хорошее массовое пиво, но им же и претензии за ошибки, которых, естественно, тоже масса. Они не глупые, как у китайских товарищей, а какие-то такие, психоделические. То есть большинство строк тупо парсятся без каких-либо проблем, и вдруг на совсем простом случае null-pointer exception, падение с закрытием программы... Буду отлаживать пару дней еще.

Хорошая для меня новость, что дети выросли настолько, что два выходных дня стало можно поработать, почти без отвлечений и без катастроф.

Date: 2017-01-30 04:38 am (UTC)
From: [identity profile] tbv.livejournal.com
Так как я никогда не слышал слово "парсер" - начало для меня звучит таинственнее, чем название у Пруста.

Date: 2017-01-30 04:43 am (UTC)
From: [identity profile] excubitus.livejournal.com
У Пруста, кажется, названия простые и незамысловатые. Или я какое-то упускаю? А вот парсить его предложения даже мозгам бывает сложно.

Date: 2017-01-30 03:30 pm (UTC)
From: [identity profile] tbv.livejournal.com
À la recherche du temps perdu - не сказал бы, что это совсем просто. Ты с Болеславом Прусом не путаешь? )

Date: 2017-01-30 03:42 pm (UTC)
From: [identity profile] excubitus.livejournal.com
Не, Болеслав по-польски же писал, а этот по-русски, как сейчас помню.

Date: 2017-01-30 08:03 am (UTC)
From: [identity profile] t o (from livejournal.com)
написать самому почти всегда проще

Date: 2017-01-30 11:43 am (UTC)
From: [identity profile] excubitus.livejournal.com
Проще было бы напрячь кого-нибудь другого... Просто не всегда получается.

Date: 2017-01-30 12:30 pm (UTC)
From: [identity profile] t o (from livejournal.com)
я тебе говорил..

Date: 2017-01-30 08:37 am (UTC)
From: [identity profile] meggirita.livejournal.com
Для меня тоже парсерок это что-то неведомое. Хотя, звучит мило.

Date: 2017-01-30 12:28 pm (UTC)
From: [identity profile] excubitus.livejournal.com
Это программа разбора предложений, позволяющая компьютеру их "читать", то есть находить в них нужную информацию.

Date: 2017-01-30 01:11 pm (UTC)
From: [identity profile] meggirita.livejournal.com
Парсить-значит читать. Прелесть.

Date: 2017-01-30 01:42 pm (UTC)
From: [identity profile] excubitus.livejournal.com
Ну, компьютер все-таки машина, железяка, а чтение - куда более сложный и даже где-то творческий процесс, нежели простое извлечение из текста нужной информации.

Date: 2017-01-30 09:53 am (UTC)
From: [identity profile] simplegary.livejournal.com

А что за пивоварня? Сэм Адамс? Пиво просто очень люблю:-)

Date: 2017-01-30 11:41 am (UTC)
From: [identity profile] excubitus.livejournal.com
Адамс, естественно.

Date: 2017-01-30 06:30 pm (UTC)
From: [identity profile] resonata.livejournal.com
У меня внезапно тоже задача - адреса парсить. Ибо стандартный работает только с адресный классификатором, и г. Москва - уже не понимает, только Москва г.

Date: 2017-01-30 07:51 pm (UTC)
From: [identity profile] excubitus.livejournal.com
Представляется мироздание, развлекающееся разбрасыванием траблов для программистов пригорышнями. Зачерпнет из ведерка с пометкой "парсинг", размахнется так пошире...

Profile

excubitus: (Default)
excubitus

December 2025

S M T W T F S
 1234 56
78 910111213
1415 1617 181920
21 222324252627
28 29 3031   

Most Popular Tags

Style Credit

Expand Cut Tags

No cut tags
Page generated Dec. 31st, 2025 08:05 pm
Powered by Dreamwidth Studios