juan_gandhi: (Default)
[personal profile] juan_gandhi

Когда-то у меня был коллега Дивьеш, и он пытался решить задачу парсинга HTML путем применения массива регексов, типа в цикле. Если вы знакомы с иерархией языков, то в курсе, что как ты ни соединяй регексы, а кс-грамматика не получится.

Год я уламывал Дивьеша изучить парсеры-комбинаторы, и наконец он изучил, у него случились просветление и епифания, и с тех пор он всем стал втюхивать парсеры с комбинаторами.

Сегодня смотрю на код на работе, батюшки, массив регексов. Для парсинга документов. А, знакомая картина!!! Автора зовут Нараян, он уже у нас не работает. Образование - пиэчди по компьютерным наукам из University of Texas at Austin. 

Я однажды интервьюировал в Гугле кандидатку оттуда. У нее пиэчди по компьютерным наукам, и я не стал ее спрашивать, может ли она написать регекс для проверки скобок в выражениях, но у нее было "implemented binary search on the internet", и я ее спросил, как это (делит интернет пополам, как физики при ловле льва в пустыне?). Оказывается, она искала в интернете двоичные файлы.

Вот такая херня, коллеги.

Date: 2021-12-14 05:11 pm (UTC)
From: [personal profile] dijifi
Честно признаюсь — сам парсил андроилские логи массивом регексов на Питоне. Для прикола программа была одним массивным выражением, так что вопрос о подсчете пробелов не стоял.
Но логи это не язык.
Edited Date: 2021-12-14 05:17 pm (UTC)

(no subject)

From: [personal profile] dijifi - Date: 2021-12-14 05:50 pm (UTC) - Expand

Date: 2021-12-14 05:15 pm (UTC)
chaource: (Default)
From: [personal profile] chaource
PhD is today's high school diploma.
(reply from suspended user)

Date: 2021-12-14 05:15 pm (UTC)
From: [personal profile] sassa_nf
I would have an array of parsers instead :)

Fast and efficient for conformant HTML, slow and perfect for those that failed the fast and efficient.

(no subject)

From: [personal profile] sassa_nf - Date: 2021-12-14 07:28 pm (UTC) - Expand

(no subject)

From: [personal profile] jsn - Date: 2021-12-15 02:37 pm (UTC) - Expand

(no subject)

From: [personal profile] sassa_nf - Date: 2021-12-15 09:52 pm (UTC) - Expand

Date: 2021-12-14 05:40 pm (UTC)
euthanasepam: Delirium Tremens (Delirium_Tremens)
From: [personal profile] euthanasepam
Ужасы какие!

Date: 2021-12-14 05:50 pm (UTC)
mikerrr: (Default)
From: [personal profile] mikerrr
И я парсил почтовые сообщения, путем составления массива регэкспов.
Мне надо было из почты доставать одно единственное слово, а форматов сообщений (автоматических) было несколько. Ну для каждого формата получался свой регэксп. А как надо было? Где почитать?

(no subject)

From: [personal profile] mikerrr - Date: 2021-12-14 06:37 pm (UTC) - Expand

(no subject)

From: [personal profile] mikerrr - Date: 2021-12-14 06:57 pm (UTC) - Expand

(no subject)

From: [personal profile] mikerrr - Date: 2021-12-14 07:27 pm (UTC) - Expand

(no subject)

From: [personal profile] ionial - Date: 2021-12-15 04:37 pm (UTC) - Expand

(no subject)

From: [personal profile] euthanasepam - Date: 2021-12-15 09:25 pm (UTC) - Expand

(no subject)

From: [personal profile] ionial - Date: 2021-12-16 03:17 pm (UTC) - Expand

(no subject)

From: [personal profile] ionial - Date: 2021-12-16 03:33 pm (UTC) - Expand

(no subject)

From: [personal profile] euthanasepam - Date: 2021-12-16 06:28 pm (UTC) - Expand

(no subject)

From: [personal profile] soid - Date: 2021-12-14 07:32 pm (UTC) - Expand

(no subject)

From: [personal profile] mikerrr - Date: 2021-12-14 07:37 pm (UTC) - Expand

(no subject)

From: [personal profile] soid - Date: 2021-12-14 07:40 pm (UTC) - Expand

Date: 2021-12-14 06:04 pm (UTC)
From: [identity profile] http://users.livejournal.com/sorcerer-/
Парсил "логи" не просто массивом регексов, а они туда добавлялись сами с помощью "ML". И все это в 2007 году. Внутри базы данных. Других вариантов не было.

Date: 2021-12-14 07:25 pm (UTC)
From: [personal profile] soid
Зачем парсить HTML самому когда есть готовые решения? Или он написал универсальный HTML парсер на основе регулярных выражений?

(no subject)

From: [personal profile] sassa_nf - Date: 2021-12-14 07:32 pm (UTC) - Expand

(no subject)

From: [personal profile] soid - Date: 2021-12-14 07:38 pm (UTC) - Expand

(no subject)

From: [personal profile] jsn - Date: 2021-12-15 02:39 pm (UTC) - Expand

Date: 2021-12-14 08:17 pm (UTC)
sab123: (Default)
From: [personal profile] sab123
Перловые регекспы позволяют парсить парные скобки. Они, конечно, не настоящие регекспы, а только записываются подобным образом, и на самом деле содержат внутри стек.

Date: 2021-12-14 08:28 pm (UTC)
sobriquet9: (Default)
From: [personal profile] sobriquet9
А как искать в интернете двоичные файлы? Что именно про них записывать в индекс?

Date: 2021-12-14 10:22 pm (UTC)
tiresome_cat: (CuriousCat)
From: [personal profile] tiresome_cat
Хеш?

Date: 2021-12-14 09:18 pm (UTC)
gxachaturov: (Default)
From: [personal profile] gxachaturov
это не моя область, но дурацкий вопрос имею.

В реальной практике, подобная нужда это стрельба по площадям? В смысле, если выловишь 95% правильно, а 5% пропустишь , то ты уже молодец, потому как коммерческую задачу выполнил (хрен с ним с Чернобылем).

Или кто-то знает приложения, где обязательно надо 100%?

(no subject)

From: [personal profile] click0 - Date: 2021-12-17 12:53 am (UTC) - Expand

Date: 2021-12-14 09:19 pm (UTC)
ccpro: (Default)
From: [personal profile] ccpro
года 3 назад, когда я ещё интервьюировал кандидатов, то зачитывался их резюмами - worked in world largest/wealthiest/(добавить по вкусу) company

а тут поиск в интернете. таких сразу в гугль надо

Date: 2021-12-15 01:35 am (UTC)
bytebuster: (ITCrowd-Cartoon)
From: [personal profile] bytebuster
пытался решить задачу парсинга HTML путем применения массива регексов

You can't parse [X]HTML with regex. ©
Edited Date: 2021-12-15 01:36 am (UTC)

(no subject)

From: [personal profile] caztd - Date: 2021-12-15 03:30 pm (UTC) - Expand

(no subject)

From: [personal profile] sassa_nf - Date: 2021-12-15 09:19 pm (UTC) - Expand

nz

Date: 2021-12-15 01:48 am (UTC)
From: [personal profile] nz

Некоторые на регексах даже синтаксический анализ пытаются соорудить. Ну или хотя бы подсветку синтаксиса.

она искала в интернете двоичные файлы

Всегда интересно, что люди подразумевают под двоичными файлами и по каким критериям их определяют.

Date: 2021-12-15 06:52 pm (UTC)
zhiva: (Default)
From: [personal profile] zhiva
> парсинга HTML путем применения массива регексов

Сразу вспомнилось https://stackoverflow.com/a/1732454 :)

комбинаторы говоришь...

Date: 2021-12-16 05:15 pm (UTC)
a_jelly: (Default)
From: [personal profile] a_jelly
А к PEG как относитесь?

Date: 2021-12-18 02:16 pm (UTC)
dmitriyandreev: (ктулху)
From: [personal profile] dmitriyandreev

"регекс для проверки скобок в выражениях"

флэшбек

Date: 2021-12-29 03:59 pm (UTC)
From: [identity profile] ok-its-the-last.livejournal.com
Зачем вообще для этого писать что-то свое? В любом мейнстримном языке есть парсер с XSLT, CSS и потоковым (on_tag_open/on_tag_close) API.

(no subject)

From: [identity profile] ok-its-the-last.livejournal.com - Date: 2021-12-29 05:34 pm (UTC) - Expand

Profile

juan_gandhi: (Default)
Juan-Carlos Gandhi

July 2025

S M T W T F S
  12345
6789 1011 12
131415 1617 1819
20212223242526
2728293031  

Most Popular Tags

Style Credit

Expand Cut Tags

No cut tags
Page generated Jul. 20th, 2025 09:11 pm
Powered by Dreamwidth Studios