mail mail

Обработка объявлений о продаже недвижимости

Результат обработки объявлений - таблица на листе Excel

Программа предназначена для преобразования файлов формата .HTM с объявлениями о продаже недвижимости (файлы являются результатом сохранения веб-страниц с сайтов публикации объявлений) в формат Microsoft Excel.

Программа производит анализ текста объвлений, распознаёт значения площади и этажности, отделяет второстепенные данные (комментарий) из текста объявления, преобразует различные форматы цен (тысячи и миллионы рублей, USD, EURO) в единый формат (рубли)

Результаты обработки в виде таблицы Excel легко поддаются анализу (сортировка и группировка по различным характеристикам квартир)

Пример содержимого обрабатываемых файлов формата .HTM:

15 М/Р-Н ул., 2-ком. кв-ру 1/5 эт. пан., 44/31/5,5 кв.м, моск. план., отл. сост., полная отделка, пластик. окна, с/у - плитка, новое отопл., дер. двери.
т. 8-912-553-9567
15 М/Р-Н ул., 2-ком. кв-ру 2/5 эт. пан., 48/32/6 кв.м, 2 подвала, балкон застек., хор. сост., 1,4 млн.руб., торг.
т. 70-73-13, 8-922-259-4495
15 М/Р-Н ул., 2-ком. кв-ру 3/10 эт. пан., 52,4/30/9 кв.м, улучш. план., балкон не застекл., с/у разд., треб. ремонта, дому 10 лет.
т. 66-86-62, 66-71-88
15 М/Р-Н ул., 2-ком. кв-ру 5/12 эт. кирп., 47,5/28,5/7 кв.м, улучш. план., балкон застекл., с/у разд., метал. дверь, 91-й серии.
т. 37-55-63, 77-71-55
15 М/Р-Н ул., 2-ком. кв-ру 5/5 эт. пан., 43/30/6 кв.м, обыч. сост., балкон застекл., подвал, тел., 1650000 руб.
т. 8-923-771-4855
15 М/Р-Н ул., 2-ком. кв-ру 7/10 эт., 52/28/8 кв.м.
т. 8-923-666-1234
15 М/Р-Н ул., 2-ком. кв-ру, 2/5 эт., 43,6/30/6 кв.м.
т. 8-964-308-3998

Комментарии

Насколько универсальный макрос, т.е. можно ли им будет пользоваться для обработки информации с разных источников или каждый раз его надо заново настраивать.

Макрос НЕ универсальный (по крайней мере, не настолько, чтобы он смог обработать информацию из любого источника)

Он заточен под конкретные файлы.

Универсальное решение, в данном случае, невозможно - поскольку исходные данные могут быть оформлены как угодно (без пробелов, с ошибками, без точек (или, наоборот, с лишними точками и запятыми), без указания валюты (или с различными вариантами написания - "1000 долларов", "$ 1000", "1000, долл.", "1.000 у.е.") и т.д. и т.п.)

Тут человеку-то не всегда под силу понять, как трактовать ту или иную позицию в объявлении. Что уж говорить про компьютер...

Может ли он обрабатывать таблицы - если данные на странице представлены в смешанном формате таблица + текст

Формат представления данных особой роли не играет, самое сложное в макросе - это алгоритм разбора текста объявления. Разумеется, существующий макрос требует переделки - изначально он рассчитан на определённый формат исходных данных.

Насколько он точен - т.е аккуратно распознает поля веб страницы

Для одного источника данных (для которого разрабатывался макрос - файлы объявлений с одного сайта) можно достичь 95-99% распознавания.

Если источников несколько - и 80% результат будет удачей.

Причем, в таких задачах повышение точности распознавания заметно увеличивает стоимость программы - ибо приходится предусматривать всевозможные ошибки в исходных данных.

 

PS: Если вы рассматриваете вопрос приобретения данного макроса, - то вынужден вас разочаровать:

подобные решения очень индивидуальны, и приобретать готовое решение не имеет смысла - доработка обойдётся в ту же сумму (если не дороже), чем решение задачи "с нуля"

Здравствуйте, подскажите пожалуйста по данному макросу:

1) Насколько универсальный макрос, т.е. можно ли им будет пользоваться для обработки информации с разных источников или каждый раз его надо заново настраивать.

2) Может ли он обрабатывать таблицы - если данные на странице представлены в смешанном формате таблица + текст.

3) Насколько он точен - т.е аккуратно распознает поля веб страницы.

Спасибо

Отправить комментарий

Содержание этого поля является приватным и не предназначено к показу.
CAPTCHA
Подтвердите, пожалуйста, что вы - человек:
2 + 1 =
Решите эту простую математическую задачу и введите результат. Например, для 1+3, введите 4.