Giải quyết bài toán Web layout


#1

Chào mọi người, tình hình là em đang tìm hiểu về Image Processing và được thầy giao 1 bài tập về Web layout ạ.

Context bài toán là mình sẽ đưa input là hình ảnh web (do designer thiết kế) với giao diện web thực sự và so sánh, với output đầu ra sẽ là mức độ khác nhau (và khác nhau ở những phần nào). Em tìm hiểu được hướng segment trang web thành các DOM, nhưng theo em biết thì cách này performance đạt được không cao, đặc biệt đối với cấu trúc web phức tạp như hiện nay (như landing page). Mọi người có thể cho em xin gợi ý về hướng tiếp cận khác mà không dùng DOM không ạ? Em cám ơn ạ!


#2

DOM là gì? Segement web thành các DOM là sao? tại sao bạn nghĩ performance không cao? Cấu trúc web phức tạp là như thế nào? Trường hợp nào khả năng sẽ bị fail? Bạn có thể lấy ví dụ không?

Với những người không có kinh nghiệm Web như mình rất khó trả lời hoặc gợi ý hướng tiếp cận cho bạn


#3

Em hiểu DOM là một khối HTML dạng cây ạ. Cứ một khối HTML (kèm code CSS tương ứng) sẽ được segment thành 1 node trong DOM. Có thể hiểu segment theo DOM là dựa vào file source của trang web và tách thành các node HTML.

Em nghĩ performance không cao vì cấu trúc web ngày càng phức tạp hơn (chứa nhiều định dạng CSS hơn), nếu tách ra thành DOM thì việc so sánh cũng phức tạp. Với lại do em cần so sánh web được develop và bản design của web đó (tức là input sau chỉ là 1 file ảnh), nên nếu dùng cách tách thành DOM, em sẽ phải chuyển file ảnh đó thành định dạng HTML + CSS tương ứng mới tách code thành các DOM. Mà convert từ ảnh của web sang code tương ứng em nghĩ không dễ thực hiện ạ.

Hiện tại em đã đổi sang hướng cho phép 2 input vào đều là 2 file ảnh (1 là ảnh do designer cung cấp, 1 ảnh là screenshot trang web đã develop). Em định sẽ chuyển bài toán về OCR và em đã lưu được các dòng text của trang web, nhưng vấn đề em gặp hiện tại là không biết làm sao để đánh label cho các ô text là nội dung, các ô text mang ý nghĩa structure. Ví dụ: Nút trả lời dù mang text nhưng nó lại là button (structure) chứ không phải nội dung.

Em còn bị vấn đề về lưu định dạng trang web nữa ạ.