carVertical

Джерела даних carVertical: як формуються звіти про історію

Tadas Švenčionis

Tadas Švenčionis

Клієнти й ділові партнери часто запитують нас: як формуються звіти carVertical про історію транспортних засобів? Звідки беруться дані?

Ці питання зрозумілі — звіти про історію можуть виявити дійсно неочікувану інформацію. Не так давно покупцям доводилося покладатись на чесність продавців і досвід їхніх механіків, щоб отримати пристойний уживаний автомобіль.

Що ж, як би нам не хотілося володіти магічною силою, правда простіша й цікавіша. У цій статті ми розглянемо формування звітів carVertical.

Потрібна допомога з купівлею вживаного автомобіля?

Введи VIN-код, щоб дізнатися більше про будь-який ТЗ!

VIN-код: ключ до розблокування історії

Більшість звітів carVertical починаються з ідентифікаційного номера транспортного засобу (VIN). Отже, що це таке і як він нам допоможе?

Майже кожен автомобіль, випущений після 1981 р., має унікальний 17-значний VIN-код, що діє як відбиток пальця. VIN-код використовують різні установи — поліція, страхові компанії, сервісні центри — для запису подій автомобіля. Аварії, крадіжки, перевірки пробігу, зміни власника та багато іншого реєструється за цим кодом.

Оскільки ми живемо в цифрову епоху, більшість даних зберігається у відкритих і приватних базах. VIN-код — це ключ до отримання таких даних.

Як формуються звіти carVertical: погляд за лаштунки

Попри те, що звіт простий і зрозумілий, технічний процес, що стоїть за ним, складний, динамічний і постійно розвивається. Ось погляд на те, як ми перетворюємо вихідні дані на чітку, практичну статистику.

1. Використання VIN-коду для пошуку даних

Під час введення VIN-коду в застосунку чи на сайті carVertical, ми автоматично ведемо пошук у понад 900 джерелах більш ніж 40 країн. Сюди входять:

  • Правоохоронні органи
  • Бази даних національної поліції
  • Фінансові установи
  • Національні / державні реєстри
  • Оголошення
  • Некомерційні організації

2. Очищення й сортування даних на застосовні фрагменти

Дані, які ми отримуємо з різних джерел зазвичай необроблені та потребують кількох етапів обробки. Наведемо приклад, щоб проілюструвати цю процедуру:

Уяви, що ми отримали шведський документ на чорний Mercedes-Benz GLC 300 із пробігом 5000 скандинавських миль (50 000 км) на одометрі, від 12 червня 2021 р. Перш ніж використати цю інформацію, нам потрібно:

  • Виправити помилки/невідповідності. Дані часто вводять в систему вручну, що призводить до друкарських чи інших помилок.
  • Перекласти дані, якщо потрібно.
  • Сортувати інформацію за категоріями, наприклад:
    • Дата запису: 12 червня 2021 р.
    • Країна: Швеція
    • Рік випуску: 2020
    • Марка: Mercedes-Benz
    • Модель: GLC 300
    • Колір: чорний
    • Показник одометра: 5 000
    • Одиниця вимірювання: скандинавські милі

Тепер можна групувати ці дані за інформацією з інших знайдених записів та використати їх для формування звіту.

3. Розподіл сортованих фрагментів даних за розділами звіту

Щоб детально розглянути процес наповнення звіту carVertical даними, візьмемо той самий чорний Mercedes.

З вищевказаного документа ми знаємо, що на момент запису цієї інформації на одометрі було 50 000 км.

Причина, за якою «ми» (carVertical) це знаємо, полягає в тому, що ми вивчили документ і виділили 3 фрагменти даних — «Показник одометра: 5 000», «Одиниця вимірювання одометра: скандинавські милі», «Дата запису: 12 червня 2021 р.».

А тепер уявімо, що ми знайшли ще 2 записи про цей Mercedes, які пропонують таку інформацію:

  • Документ № 1:
    • Країна запису: Швеція
    • Одометр: 187 000 км
    • Дата реєстрації: 20 жовтня 2022 р.
  • Документ № 2:
    • Країна запису: Фінляндія
    • Дата техогляду: 7 вересня 2023 р.
    • Одометр: 105 000 км
    • Викиди CO2: [x г/км]

В цих даних справжня історія — нам просто потрібно її сформувати.

Для цього ми групуємо види даних за розділами звіту. Так, у нас є 3 показники одометра й дати їх зняття. Вони з’являться в розділі звіту «Одометр». Водночас дані техогляду будуть у розділах «Правовий статус» і «Хронологія» тощо.

4. Статистичні моделі для генерації оглядів і виправлень

Отже, у нас є дані, оброблені для використання у звіті carVertical. Однак є ще багато роботи «під капотом» — здебільшого використання статистичних моделей та інших технологічних рішень для розв’язання проблем і збагачення звіту.

Ці технології мають безліч застосувань; як приклад, ми задіюємо статистичні моделі, щоб надати користувачам додаткові дані (так, можна порівняти пробіг нашого прикладу Mercedes з іншими автомобілями тієї ж моделі, віку тощо).

Це двобічний процес: ми використовуємо статистичні моделі, щоб збагатити поточний звіт, та дані поточного звіту, щоб збагатити статистичні моделі.

5. Генерація звіту

На цьому етапі всі дані, які ми зібрали, очистили, відсортували та збагатили, використовуються для генерації звіту carVertical. Повернемося до нашого Mercedes, як до останнього прикладу. Ось як може виглядати розділ «Одометр»:

Попри те, що цей чорний Mercedes може здатися привабливим, вищевказаний графік — привід подумати двічі для будь-якого потенційного покупця!

Зі звіту також можна дізнатися про шлях автомобіля — прибуття до Швеції, продаж іншому власнику у Швеції та, зрештою, прибуття до Фінляндії. Використовуючи статистичні моделі, ми також можемо надати діапазон цін на цю модель і графік середнього пробігу (хоча він не дуже зміниться, враховуючи скручування) та багато іншого.

Пошкодження, показники пробігу та все інше: з яких джерел надходять дані?

Не обговорюючи конкретні бази даних/джерела інформації в наших звітах, ми можемо розглянути загальні правила надходження певних даних.

Перш ніж це робити, слід зрозуміти кілька речей:

  • Однакові типи даних можуть надходити з різних видів джерел. Наприклад, записи пробігу (навіть одні й ті самі) можна отримати з техогляду, протоколу поліції чи з іншого місця.
  • В різних країнах різні правила. Однакові типи установ можуть виконувати різні функції ведення записів у системах залежно від країни.

Тож де знайти записи про пошкодження, показники одометра та інші деталі?

carVertical має сертифікат ISO/IEC 27001:2017

Як компанія, яка працює зі значним обсягом даних, ми дуже серйозно ставимося до безпеки. На підтвердження своєї політики, carVertical отримала сертифікат ISO/IEC 27001:2017 — міжнародний стандарт інформаційної безпеки.

Що це означає?

Щоб отримати сертифікат ISO/IEC 27001:2017, компанія має впровадити засоби та процедури, що захищають всі усні, письмові та електронні дані, отримані, надані, створені, керовані та використані від усіх можливих загроз: зовнішніх, внутрішніх, навмисних чи випадкових.

Цей сертифікат означає, що ми вжили суворих заходів щодо захисту усної, письмової та електронної інформації від будь-яких загроз — зовнішніх, внутрішніх, випадкових чи навмисних.

Що це означає? Особисті дані, дані звітів і фінансові дані захищені системами безпеки найвищого рівня. Треба більше деталей? Див. нашу Політику інформаційної безпеки та Систему керування інформаційною безпекою (ISMS).

Зустрічай команду, що працює з даними компанії carVertical!

Звіт carVertical простий і легкий для читання, але простота вимагає чимало зусиль. Наш Відділ даних уособлює цей принцип: наразі в carVertical працює майже 200 співробітників, 15 % з яких обробляють дані.

Це чимало людей, що добре рахують!

У відділі є 4 спеціалізовані групи:

  • Збір даних — акцент на зборі необроблених даних
  • Інженерія даних — створення і підтримка нашої інфраструктури та конвеєрів даних
  • Інженерія машинного навчання — розробка та розгортання моделей машинного навчання
  • Аналітика даних — аналізує дані, щоб отримати статистику та інформовані бізнес-рішення

Кожна група відіграє вирішальну роль у створенні звіту carVertical — без них ми буквально не змогли б існувати!

Поширені запитання

Tadas Švenčionis

Автор статті:

Tadas Švenčionis

Тадас – головний редактор блогу carVertical. Фанат усього, що повʼязано з транспортом і технологіями, він намагається робити складні теми простими й цікавими – зрештою, який сенс в історії, яку ніхто не зрозуміє? Вільний час Тадас проводить за читанням, іграми та непроханою музикою у Вільнюсі, Литва.