Google працює над зменшенням упередженості в машинному навчанні

25

Однією актуальних проблем для дослідників в області машинного навчання є зменшення упередженості, яка часто представлена у вихідних даних і може посилюватися такими системами.

Наприклад, якщо розробник хоче створити алгоритм, що допомагає визначати найбільш підходящих кандидатів на вакансію, то він може використовувати існуючих співробітників компанії в якості джерела даних. В результаті ml-система матиме відповідні спотворення. Так, якщо в компанії працює більше чоловіків, то їм може присвоюватися більшу вагу у вибірці. При цьому люди з певним досвідом або характеристиками можуть відсіватися.

У google мають намір вирішити цю проблему за допомогою нового інструменту для аналізу наборів даних know your data (kyd). З його допомогою розробники зможуть ідентифікувати існуючі упередження в своїх даних, щоб звести їх до мінімуму.

Нижче-приклад використання kyd для аналізу підписів до зображень на предмет поширеності жіночих і чоловічих зображень в рамках певної категорії.

На даний момент нова система досить обмежена в тому, як вона може витягувати і аналізувати приклади даних. Однак наголошується, що вона вказує на краще майбутнє для такого аналізу і відкриває більше можливостей для зменшення упередженості в системах машинного навчання.