Программа предназначена для преобразования файлов формата .HTM с объявлениями о продаже недвижимости (файлы являются результатом сохранения веб-страниц с сайтов публикации объявлений) в формат Microsoft Excel.
Программа производит анализ текста объвлений, распознаёт значения площади и этажности, отделяет второстепенные данные (комментарий) из текста объявления, преобразует различные форматы цен (тысячи и миллионы рублей, USD, EURO) в единый формат (рубли)
Результаты обработки в виде таблицы Excel легко поддаются анализу (сортировка и группировка по различным характеристикам квартир)
Пример содержимого обрабатываемых файлов формата .HTM:
15 М/Р-Н ул., 2-ком. кв-ру 1/5 эт. пан., 44/31/5,5 кв.м, моск. план., отл. сост., полная отделка, пластик. окна, с/у - плитка, новое отопл., дер. двери.
т. 8-912-553-9567
15 М/Р-Н ул., 2-ком. кв-ру 2/5 эт. пан., 48/32/6 кв.м, 2 подвала, балкон застек., хор. сост., 1,4 млн.руб., торг.
т. 70-73-13, 8-922-259-4495
15 М/Р-Н ул., 2-ком. кв-ру 3/10 эт. пан., 52,4/30/9 кв.м, улучш. план., балкон не застекл., с/у разд., треб. ремонта, дому 10 лет.
т. 66-86-62, 66-71-88
15 М/Р-Н ул., 2-ком. кв-ру 5/12 эт. кирп., 47,5/28,5/7 кв.м, улучш. план., балкон застекл., с/у разд., метал. дверь, 91-й серии.
т. 37-55-63, 77-71-55
15 М/Р-Н ул., 2-ком. кв-ру 5/5 эт. пан., 43/30/6 кв.м, обыч. сост., балкон застекл., подвал, тел., 1650000 руб.
т. 8-923-771-4855
15 М/Р-Н ул., 2-ком. кв-ру 7/10 эт., 52/28/8 кв.м.
т. 8-923-666-1234
15 М/Р-Н ул., 2-ком. кв-ру, 2/5 эт., 43,6/30/6 кв.м.
т. 8-964-308-3998
Комментарии
Макрос НЕ универсальный (по крайней мере, не настолько, чтобы он смог обработать информацию из любого источника)
Он заточен под конкретные файлы.
Универсальное решение, в данном случае, невозможно - поскольку исходные данные могут быть оформлены как угодно (без пробелов, с ошибками, без точек (или, наоборот, с лишними точками и запятыми), без указания валюты (или с различными вариантами написания - "1000 долларов", "$ 1000", "1000, долл.", "1.000 у.е.") и т.д. и т.п.)
Тут человеку-то не всегда под силу понять, как трактовать ту или иную позицию в объявлении. Что уж говорить про компьютер...
Формат представления данных особой роли не играет, самое сложное в макросе - это алгоритм разбора текста объявления. Разумеется, существующий макрос требует переделки - изначально он рассчитан на определённый формат исходных данных.
Для одного источника данных (для которого разрабатывался макрос - файлы объявлений с одного сайта) можно достичь 95-99% распознавания.
Если источников несколько - и 80% результат будет удачей.
Причем, в таких задачах повышение точности распознавания заметно увеличивает стоимость программы - ибо приходится предусматривать всевозможные ошибки в исходных данных.
PS: Если вы рассматриваете вопрос приобретения данного макроса, - то вынужден вас разочаровать:
подобные решения очень индивидуальны, и приобретать готовое решение не имеет смысла - доработка обойдётся в ту же сумму (если не дороже), чем решение задачи "с нуля"
Здравствуйте, подскажите пожалуйста по данному макросу:
1) Насколько универсальный макрос, т.е. можно ли им будет пользоваться для обработки информации с разных источников или каждый раз его надо заново настраивать.
2) Может ли он обрабатывать таблицы - если данные на странице представлены в смешанном формате таблица + текст.
3) Насколько он точен - т.е аккуратно распознает поля веб страницы.
Спасибо
Отправить комментарий